diff --git a/Niveau-2/README.md b/Niveau-2/README.md index 832bef2..4d16ddf 100644 --- a/Niveau-2/README.md +++ b/Niveau-2/README.md @@ -1,32 +1,26 @@ -Niveau-2 -======== - -L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient. - -Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser. - -## Corpus - -### Polaris - -**Polaris ancien v1 (sans documents de l'éditeur Cambridge)** : 583 documents - -**Polaris ancien v2 (avec documents de l'éditeur Cambridge)** : 783 documents - -**Polaris récent v1 (sans documents de l'éditeur Cambridge)** : 11 731 documents - -**Polaris récent v2 (avec documents de l'éditeur Cambridge)** : 12 303 documents - - -### Vieillissement - -**vieillissement v1** : 7 434 documents - -**vieillissement v2** : 8 707 documents - - -## Outils - -Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement. - -Le logiciel d’analyse statistique **[R](https://www.r-project.org/)** est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2. +Niveau-2 +======== + +L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient. + +Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser. + +## Corpus + +### Polaris + +Les corpus Polaris sont constitués de documents Istex relatifs à l'Arctique. + + +### Vieillissement + +**vieillissement v1** : 7 434 documents + +**vieillissement v2** : 8 707 documents + + +## Outils + +Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement. + +Le logiciel d’analyse statistique **[R](https://www.r-project.org/)** est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2.