scodex / harvest-corpus
Outil d'extraction de corpus ISTEX
besagni authored 11 days ago
outils Version 1.0.9 (correction d’un bug générant des “PDF multiples”) 11 days ago
README.md Ancienne doc 1 month ago
harvestCorpus.pl Version 3.0.7 (ajout type de métadonnées au format JSON) 18 days ago
README.md

harvest-corpus

Outil d’extraction de corpus ISTEX

Permet de décharger un corpus de fichiers textes (PDF, TEI, TXT), de fichiers de métadonnées (Mods, XML) ou de fichiers d’enrichissement depuis la base ISTEX à partir d’une requête ou d’un fichier corpus. Également, renomme les fichiers déchargés et génère un fichier de notices bibliographiques.

N.B. : Cette documentation n'est pas à jour pour l’instant.

Usage

    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) ( -t (all|ocr|pdf|tei|txt|zip)[,(ocr|pdf|tei|txt|zip)]* |
                       -e (all|multicat|refBibs|...)[,(multicat|refBibs|...)]* | -m (all|mods|xml) )
                       [ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) -a [ -d destination ] [ -n notices ] [ -p préfixe ]
                     [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl -h

Options

   -a  télécharge tous les fichiers correspondants aux documents
   -c  utilise le fichier corpus "fichier_corpus" (incompatible avec les options -r
       et -s ; en cours de réalisation)
   -d  indique le répertoire de destination des documents (répertoire courant par défaut)
   -h  affiche cette aide
   -e  liste les enrichissements à télécharger, soit "all" pour l’ensemble, soit
       "abesAuthors", "abesSubjects", "multicat", "nb", "refBibs", "teeft" ou "unitex"
   -i  ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques
   -m  liste les fichiers de métadonnées à télécharger, soit "all" pour l’ensemble,
       soit "mods" ou "xml"
   -n  indique le nom du fichier de notices bibliographiques généré (par défaut,
       "notices.txt" dans le répertoire courant ou celui donné par l’option -d)
   -p  indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, "f")
   -r  indique la requête à utiliser, entre simples quotes en présence de blancs ou de
       caractères spéciaux (incompatible avec l’option -c)
   -s  génère un fichier corpus (incompatible avec l’option -c ; en cours de réalisation)
   -t  liste les fichiers de texte intégral à télécharger, soit "all" pour l’ensemble,
       soit "ocr", "pdf", "tei", "txt" ou "zip"
   -v  garde les métadonnées ISTEX dans un fichier "logRequete.txt" dans le répertoire
       courant ou celui donné par l’option -d

Exemple

   harvestCorpus.pl -r '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei -d FichiersPDF