Outil de statistiques descriptives sur les corpus ISTEX extraits par harvestCorpus.pl
Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”).
Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés ou non.
Le résultat comprend, en plus de l’en-tête, une ligne par document avec des champs séparés par des tabulations (format TSV).
statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] [ -s sortie ] statsCorpus.pl -h
-l indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON créé par l’option “-v” du programme “harvestCorpus.pl”. Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des fichiers déchargés depuis le serveur ISTEX. -c indique le nom du fichier “corpus” généré par le programme “harvestCorpus.pl” permettant de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers extraits correspondants. -p indique le préfixe utilisé au début du nom des fichiers déchargés par le programme “harvestCorpus.pl”. -r indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme “harvestCorpus.pl”. -s indique le nom du fichier de sortie. Sinon, la sortie se fait sur la sortie standard.
statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement -s Vieil.tsv