diff --git a/Niveau-2/Polaris/Polaris ancien/README.md b/Niveau-2/Polaris/Polaris ancien/README.md index 5e7af0d..65366d0 100644 --- a/Niveau-2/Polaris/Polaris ancien/README.md +++ b/Niveau-2/Polaris/Polaris ancien/README.md @@ -1,4 +1,6 @@ POLARIS - Corpus ancien ======================= -On verra plus tard ! +Le corpus Polaris ancien contient des documents Istex circonscrits à la zone polaire arctique et publiés avant 1917. + +L'exploration thématique de ce corpus, notamment par l'outil **[IRaMuTeQ](http://iramuteq.org/)**, est à venir, ainsi que les programmes de préparation des données d'entrée. \ No newline at end of file diff --git "a/Niveau-2/Polaris/Polaris r\303\251cent/Iramuteq/README.md" "b/Niveau-2/Polaris/Polaris r\303\251cent/Iramuteq/README.md" index 4cc2832..80dc962 100644 --- "a/Niveau-2/Polaris/Polaris r\303\251cent/Iramuteq/README.md" +++ "b/Niveau-2/Polaris/Polaris r\303\251cent/Iramuteq/README.md" @@ -1,11 +1,11 @@ Iramuteq ======== -Ces deux scripts servent à préparer les données d'entrée pour **[IRaMuTeQ](http://iramuteq.org/)** sur le corpus Polaris récent. +Les deux scripts ci-dessous, développés par Panpan Hu, servent à préparer les données pour le fichier d'entrée dans Iramuteq. Ils sont adaptés au corpus Polaris récent et aux sorties de l’extraction fournie par harvestCorpus. ### **Extraction_metadata.pl** : -Extrait certaines médadonnées (DT>type de document, SO>source, LA>langue) comme variable depuis polarisRecent_modifié.txt pour l'entrée d'Iramuteq. +Extrait les médadonnées choisies (DT>type de document, SO>source, LA>langue) comme variable depuis polarisRecent_modifié.txt pour l'entrée dans Iramuteq. ### **Preparation_entree_Ira_polaris.pl** : -Concatène les articles dans le corpus Polaris et les médadonnées extraites par le script précédent. +Concatène les fichiers TXT du répertoire de données source pour le corpus Polaris récent en ajoutant le nom de la revue comme variable pour chaque fichier avec les médadonnées extraites par le script précédent. diff --git "a/Niveau-2/Polaris/Polaris r\303\251cent/README.md" "b/Niveau-2/Polaris/Polaris r\303\251cent/README.md" index e0eef94..2bf7eed 100644 --- "a/Niveau-2/Polaris/Polaris r\303\251cent/README.md" +++ "b/Niveau-2/Polaris/Polaris r\303\251cent/README.md" @@ -1,11 +1,14 @@ POLARIS - Corpus récent ======================= -Ces deux scripts servent à préparer les données d'entrée pour **[IRaMuTeQ](http://iramuteq.org/)** sur le corpus Polaris. +Le corpus Polaris récent contient des documents Istex circonscrits à la zone polaire arctique et publiés entre 2000 et 2015. -### **Extraction_metadata.pl** : -Extrait certaines médadonnées (DT>type de document, SO>source, LA>langue) comme variable depuis polarisRecent_modifié.txt pour l'entrée d'Iramuteq. +L'exploration thématique de ce corpus a notamment employé l'outil **[IRaMuTeQ](http://iramuteq.org/)**. Celui-ci nécessite un prétraitement des données pour n'ingérer qu'un fichier unique contenant à la fois les métadonnées et les textes. + +Constitution du fichier de données en entrée = textes concaténés et précédés chacun des métadonnées que l’on souhaite explorer selon une syntaxe précise + +Sélection des métadonnées suivantes : titre de revue, langue, type de document -### **Preparation_entree_Ira_polaris.pl** : -Concatène les articles dans le corpus Polaris et les médadonnées extraites par le script précédent. + + diff --git a/Niveau-2/Polaris/README.md b/Niveau-2/Polaris/README.md index c5a12e7..52d8319 100644 --- a/Niveau-2/Polaris/README.md +++ b/Niveau-2/Polaris/README.md @@ -1,9 +1,17 @@ POLARIS ======= +Deux corpus Polaris ont été constitués correspondant, l'un à des documents Istex publiés récemment, et l'autre, à des documents Istex datant de plus d'un siècle. L'objectif visé est de mettre en évidence les évolutions des sujets de recherche sur cette zone géographique au moyen d'une exploration des thématiques contenues dans chacun d'eux. ### Corpus ancien : +**Polaris ancien v1 (sans documents de l'éditeur Cambridge)** : 583 documents + +**Polaris ancien v2 (avec documents de l'éditeur Cambridge)** : 783 documents ### Corpus récent : +**Polaris récent v1 (sans documents de l'éditeur Cambridge)** : 11 731 documents + +**Polaris récent v2 (avec documents de l'éditeur Cambridge)** : 12 303 documents +