diff --git a/stats/README.md b/stats/README.md new file mode 100644 index 0000000..a254799 --- /dev/null +++ b/stats/README.md @@ -0,0 +1,36 @@ +stat-corpus +=============== + +Statistiques descriptives sur les corpus ISTEX extrait par **harvestCorpus.pl** + +Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier +de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”). +Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés +ou non. + +### Usage +``` + statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] + statsCorpus.pl -h +``` + +### Options +``` + -l indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON + créé par l’option “-v” du programme **harvestCorpus.pl**. + Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des + fichiers déchargés depuis le serveur ISTEX. + -c indique le nom du fichier “corpus” généré par le programme **harvestCorpus.pl** permettant + de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers + correspondants extraits. + -p indique le préfixe utilisé au début du nom des fichiers déchargés par le programme + **harvestCorpus.pl**. + -r indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme + **harvestCorpus.pl**. +``` + +### Exemple +``` + statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes + statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement +```