Statistiques descriptives sur les corpus ISTEX extrait par harvestCorpus.pl
Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”). Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés ou non.
statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] statsCorpus.pl -h
-l indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON créé par l’option “-v” du programme **harvestCorpus.pl**. Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des fichiers déchargés depuis le serveur ISTEX. -c indique le nom du fichier “corpus” généré par le programme **harvestCorpus.pl** permettant de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers correspondants extraits. -p indique le préfixe utilisé au début du nom des fichiers déchargés par le programme **harvestCorpus.pl**. -r indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme **harvestCorpus.pl**.
statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement