Newer
Older
harvest-corpus / stats / README.md

stat-corpus

Statistiques descriptives sur les corpus ISTEX extrait par harvestCorpus.pl

Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”).

Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés ou non.

Usage

    statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] 
    statsCorpus.pl -h

Options

    -l  indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON 
        créé par l’option “-v” du programme “harvestCorpus.pl”. 
        Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des 
        fichiers déchargés depuis le serveur ISTEX. 
    -c  indique le nom du fichier “corpus” généré par le programme “harvestCorpus.pl” permettant 
        de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers 
        correspondants extraits.
    -p  indique le préfixe utilisé au début du nom des fichiers déchargés par le programme 
        “harvestCorpus.pl”. 
    -r  indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme 
        “harvestCorpus.pl”.

Exemple

    statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes
    statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement