explore-corpus / Niveau-3 /
besagni authored on 10 Jul 2018
..
Iramuteq Changement des droits 1 year ago
TXM Changement des droits 1 year ago
README.md Update README.md 1 year ago
README.md

Niveau-3

L’exploration de Niveau 3 est destinée à évaluer la qualité d'un corpus en identifiant le bruit et le silence qu'il contient, par rapport à une ressource de référence.

  • Bruit : vérification de la présence d’au moins 1 nom d’espèce animale en latin dans chacun des documents. Seront donc considérés comme du bruit, les documents ne contenant aucun nom d'espèce, d'après la ressource servant de référence.
  • Silence : vérification de la représentation de tous les embranchements et de toutes les classes de la ressource chez les espèces trouvées dans le corpus.

Cette exploration sert également à tester la performance d'outils de textométrie pour réaliser cette tâche sur un corpus de volume plus important.

Corpus

Systématique animale v2 : 36 778 documents de zoologie répartis en 11 sous-corpus (arthropodes, batraciens, échinodermes, éponges, insectes, mammifères, mollusques, oiseaux, poissons, reptiles, vers).

Ressource de référence

Liste de 864 420 noms d'espèces animales extraits de la base de données Catalogue of Life avec les informations de classification par famille, ordre, classe, embranchement.

Outils et procédure

La combinaison entre les logiciels TXM et IRaMuTeQ telle qu'elle a été réalisée pour le Niveau 1 a été testée sur ce nouveau corpus mais n'a pas pu aboutir.

En effet, le volume des sous-corpus représente une limite forte pour l'utilisation de ces outils (le plus volumineux étant Poissons avec 10 251 documents).

Les fichiers d'entrée ont été tout de même créés, à l'aide des scripts présentés dans les répertoires correspondants, mais ceux générés pour TXM n'ont pas pu être chargés dans l'outil.

Pour aller jusqu'au bout de ce protocole d'exploration, nous avons finalement eu recours à l'outil d'extraction de formes figées IRC3.

La jonction entre les noms d'espèces détectés dans le corpus et la ressource de référence contenant les éléments de classification a été ensuite réalisée grâce à la fonction Shell Join.

Les comptages et l'identification de classes et embranchements manquants sont ensuite réalisés par des tableaux croisés dynamiques dans Calc.