diff --git a/Niveau-2/Polaris r303cent/Iramuteq/Extraction_metadata.pl b/Niveau-2/Polaris r303cent/Iramuteq/Extraction_metadata.pl deleted file mode 100644 index f25dda9..0000000 --- a/Niveau-2/Polaris r303cent/Iramuteq/Extraction_metadata.pl +++ /dev/null @@ -1,78 +0,0 @@ -#!/usr/bin/perl -use strict; -use warnings; -use utf8; -use open qw/:std :utf8/; - -use Encode; -use Getopt::Long; - -my ($programme) = $0 =~ m|^(?:.*/)?(.+)|; -$programme = decode_utf8($programme); - -my $metadata = ""; -my $sortie = ""; - -eval { - $SIG{__WARN__} = sub {usage(1);}; - GetOptions( - "metadata=s" => \$metadata, - "sortie=s" => \$sortie, - ); - }; -$SIG{__WARN__} = sub {warn $_[0];}; - -usage(2) if not $metadata or not $sortie; - -open(META, "<:utf8", $metadata) or die "Couldn't open file \"$metadata\", $!"; -open(SORTIE, "+<:utf8", $sortie) or die "Couldn't open file \"$sortie\", $!"; - -foreach my $ligne () -{ - chomp($ligne); - if ($ligne =~ /^DT : (.*)/) - { - print SORTIE "**** *DT_"; - my $dt = $1; - $dt =~ s/ ; /_/g; - print SORTIE $dt; - print SORTIE " *SO_" - #my $dt = $1; - #print SORTIE "**** *DT_" - #print SORTIE $dt; - } - elsif ($ligne =~ /^SO : (.*?) ;/) - { - #$valeurs[1] = "$1"; - #print SORTIE " *SO_" - #print SORTIE $valeurs[1]; - my $so = $1; - $so =~ s/ /_/g; - print SORTIE $so; - print SORTIE " *LA_" - } - elsif ($ligne =~ /^LA : (.*)/) - { - #$valeurs[2] = "$1"; - #print SORTIE " *LA_" - #print SORTIE $valeurs[2]; - my $la = $1; - $la =~ s/ /_/g; - print SORTIE $la; - print SORTIE "\n"; - } -} - -close META; -close SORTIE; - -exit 0; - -sub usage -{ -my $code = shift; - -print STDERR "Usage : $programme -m metadata -s sortie \n"; - -exit $code; -} diff --git a/Niveau-2/Polaris r303cent/Iramuteq/Preparation_entree_Ira_polaris.pl b/Niveau-2/Polaris r303cent/Iramuteq/Preparation_entree_Ira_polaris.pl deleted file mode 100644 index 1873102..0000000 --- a/Niveau-2/Polaris r303cent/Iramuteq/Preparation_entree_Ira_polaris.pl +++ /dev/null @@ -1,70 +0,0 @@ -#!/usr/bin/perl - -use strict; -use warnings; -use utf8; -use open qw/:std :utf8/; - -use Encode; -use Getopt::Long; - -my ($programme) = $0 =~ m|^(?:.*/)?(.+)|; -$programme = decode_utf8($programme); - -my $dir = ""; -my $metadata = ""; -my $sortie = ""; - -eval { - $SIG{__WARN__} = sub {usage(1);}; - GetOptions( - "dir=s" => \$dir, - "metadata=s" => \$metadata, - "sortie=s" => \$sortie, - ); - }; -$SIG{__WARN__} = sub {warn $_[0];}; - -usage(2) if not $dir or not $metadata or not $sortie; - -#ouverture du dossier contenant les fichier .txt - -opendir(DIR, $dir) or die "Couldn't open file $dir, $!"; -my @files = sort grep {not /^\./} readdir(DIR); -closedir(DIR); -my $size = @files; -print STDERR "Total : $size\n"; - -#ouverture des métadonnées -open(METADATA, "<:utf8", $metadata) or die "Couldn't open file $metadata, $!"; - -#ouverture d'un fichier pour saisir des données -open(DATA, ">:utf8", $sortie) or die "Couldn't open file $sortie, $!"; - -my $i = 0; -while (my $metadata = ) { - print DATA $metadata; - open(FILE, "<:utf8", "$dir/$files[$i]") or die "Couldn't open file $files[$i], $!"; - while(my $ligne = ){ - #suppression des étoiles et des chiffres - $ligne =~ s/\*//; - print DATA $ligne; - } - close(FILE); - $i++; -} - -close(METADATA); -close(DATA); - -exit 0; - - -sub usage -{ -my $code = shift; - -print STDERR "Usage : $programme -d répertoire -m métadonnées -s sortie\n\n"; - -exit $code; -} diff --git a/Niveau-2/Polaris r303cent/Iramuteq/README.md b/Niveau-2/Polaris r303cent/Iramuteq/README.md deleted file mode 100644 index 28dc3c6..0000000 --- a/Niveau-2/Polaris r303cent/Iramuteq/README.md +++ /dev/null @@ -1,18 +0,0 @@ -Iramuteq -======== - -Les deux scripts ci-dessous, développés par Panpan Hu, servent à préparer les données pour le fichier d'entrée dans Iramuteq. Ils sont adaptés au corpus Polaris récent et aux sorties de l’extraction fournie par harvestCorpus. - -### **Extraction_metadata.pl** : -Extrait les médadonnées choisies (DT>type de document, SO>source, LA>langue) comme variable depuis polarisRecent_modifié.txt pour l'entrée dans Iramuteq. - - -### **Preparation_entree_Ira_polaris.pl** : -Concatène les fichiers TXT du répertoire de données source pour le corpus Polaris récent en ajoutant le nom de la revue comme variable pour chaque fichier avec les médadonnées extraites par le script précédent. - -***Syntaxe :*** - -``` -perl Preparation__entree_lra_polaris.pl -d nom_du_répertoire_entrée -s nom_du_fichier_sortie -``` - diff --git a/Niveau-2/Polaris r303cent/README.md b/Niveau-2/Polaris r303cent/README.md deleted file mode 100644 index 374d984..0000000 --- a/Niveau-2/Polaris r303cent/README.md +++ /dev/null @@ -1,17 +0,0 @@ -POLARIS - Corpus récent -======================= - -Le corpus ***Polaris récent*** contient des documents extraits de l'archive Istex, circonscrits à la zone polaire arctique et publiés entre 2000 et 2015. - -L'exploration thématique de ce corpus a été réalisée au moyen de l'outil **[IRaMuTeQ](http://iramuteq.org/)**. - -Cet outil nécessite un prétraitement des données pour n'ingérer qu'un fichier unique, comportant à la fois les métadonnées et les textes correspondants. Ce prétraitement s'opère en deux étapes : - -- constitution du fichier de données en entrée = textes concaténés et précédés chacun des métadonnées que l’on souhaite explorer selon une syntaxe précise ; - -- Sélection des métadonnées suivantes : titre de revue, langue, type de document. - - - - -