Newer
Older
explore-corpus / Niveau-2 / README.md
@camille camille on 10 Jul 2018 1 KB Text updated
Niveau-2
========

L’exploration de corpus Niveau 2 est destinée à évaluer la qualité d’un corpus en identifiant les thématiques qu’il contient.

Cette exploration a pour objectif de mettre en évidence les différentes thématiques abordées ou les différents points de vue sous lesquels est abordée une thématique. Elle vise également à identifier les éventuels manques et/ou anomalies dans les thématiques. Elle permettra ainsi d’améliorer la qualité du corpus et de cibler la meilleure manière de le valoriser.

## Corpus

### Polaris

Les corpus Polaris sont constitués de documents Istex relatifs à l'Arctique.


### Vieillissement

**vieillissement v1** : 7 434 documents 

**vieillissement v2** : 8 707 documents 


## Outils

Le logiciel d’analyse statistique **[IRaMuTeQ](http://iramuteq.org/)** est utilisé pour détecter les thématiques pertinentes et les représenter sous forme de dendrogrammes et de nuages de mots dans les corpus Polaris et Vieillissement.

Le logiciel d’analyse statistique **[R](https://www.r-project.org/)** est également utilisé pour détecter les thématiques pertinentes d'un corpus (grâce à ses packaqges NLP, tm, topicmodels, dplyr, ggplot2). Il a été testé uniquement sur le corpus Vieillissement 2.