Newer
Older
harvest-corpus / outils / stats-corpus / README.md
@besagni besagni on 13 Dec 2017 1 KB Nouvelle arborescence

stat-corpus

Outil de statistiques descriptives sur les corpus ISTEX extrait par harvestCorpus.pl

Permet de faire des statistiques sur les fichiers extraits d’ISTEX en utilisant le fichier de métadonnées “logRequete.txt” (cf. l’option “-v” du programme “harvestCorpus.pl”).

Si les fichiers XML éditeurs ont été extraits, il permet aussi de vérifier s’ils sont structurés ou non.

Le résultat comprend, en plus de l’en-tête, une ligne par document avec des champs séparés par des tabulations (format TSV).

Usage

    statsCorpus.pl -l logfile ( -p préfixe | -c corpus ) [ -r répertoire ] [ -s sortie ]
    statsCorpus.pl -h

Options

    -l  indique le nom du fichier “logfile” contenant les métadonnées ISTEX au format JSON 
        créé par l’option “-v” du programme “harvestCorpus.pl”. 
        Par défaut, ce fichier s’appelle “logRequete.txt” et se trouve dans le répertoire des 
        fichiers déchargés depuis le serveur ISTEX. 
    -c  indique le nom du fichier “corpus” généré par le programme “harvestCorpus.pl” permettant 
        de faire le lien entre l’identifiant ISTEX d’un document et le nom des fichiers 
        extraits correspondants.
    -p  indique le préfixe utilisé au début du nom des fichiers déchargés par le programme 
        “harvestCorpus.pl”. 
    -r  indique le répertoire où se trouve les fichiers XML éditeurs déchargés par le programme 
        “harvestCorpus.pl”.
    -s  indique le nom du fichier de sortie. Sinon, la sortie se fait sur la sortie standard.

Exemple

    statsCorpus.pl -l Arthropodes/logRequete.txt -c Arthropodes_v2b.corpus -r Arthropodes
    statsCorpus.pl -l Vieillissement/logRequete.txt -p Vieil_ -r Vieillissement -s Vieil.tsv