explore-corpus / Niveau-1 /
sabine authored on 7 Dec 2017
..
Iramuteq Information complémentaire 1 year ago
TXM Update README.md 1 year ago
README.md Update README.md 1 year ago
README.md

Niveau-1

L’exploration de Niveau 1 est destinée à évaluer la qualité d'un corpus en identifiant le bruit qu'il contient, par rapport à une ressource de référence.

Elle a pour objectif de vérifier la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence.

Cette exploration sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de faible volume.

Corpus

Systématique animale v1 : 1 080 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, éponges, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).

Ressource de référence

Liste de 306 574 noms d'espèces animales extraits de la base de données Catalogue of Life.

Outils et procédure

Le logiciel de textométrie TXM est utilisé pour réaliser des partitions du corpus et calculer la fréquence d'occurrence de noms ressemblant à des noms d'espèces et détectés à partir d'une expression régulière.

Le logiciel d’analyse statistique IRaMuTeQ est utilisé pour détecter dans le corpus la présence des noms d'espèces issus de la ressource de référence.

La jonction entre les noms d'espèces présents dans le corpus et les fréquences d'occurrence des noms ressemblant à des noms d'espèces est réalisée grâce à des tableaux croisés dynamiques dans Calc.

Les documents ayant un nombre de noms d'espèces égal à 0 sont considérés comme du bruit.