Outil d'extraction de corpus ISTEX

@besagni besagni authored on 25 Sep 2017
README.md Ajout de "ocr" dans les types de document "fulltext" 6 years ago
harvestCorpus.pl Ajout de "ocr" dans les types de document "fulltext" 6 years ago
README.md

harvest-corpus

Outil d’extraction de corpus ISTEX

Permet de décharger un corpus de fichiers textes (PDF, TEI, TXT), de fichiers de métadonnées (Mods, XML) ou de fichiers d’enrichissement depuis la base ISTEX à partir d’une requête ou d’un fichier corpus. Également, renomme les fichiers déchargés et génère un fichier de notices bibliographiques.

N.B. : AUCUNE MÉTHODE D’AUTHENTIFICATION SUPPORTÉE POUR L’INSTANT.

Usage

    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) ( -t (all|ocr|pdf|tei|txt|zip)[,(ocr|pdf|tei|txt|zip)]* |
                       -e (all|multicat|refBibs|...)[,(multicat|refBibs|...)]* | -m (all|mods|xml) )
                       [ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) -a [ -d destination ] [ -n notices ] [ -p préfixe ]
                     [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl -h

Options

   -a  télécharge tous les fichiers correspondants aux documents
   -c  utilise le fichier corpus "fichier_corpus" (incompatible avec les options -r
       et -s ; en cours de réalisation)
   -d  indique le répertoire de destination des documents (répertoire courant par défaut)
   -h  affiche cette aide
   -e  liste les enrichissements à télécharger, soit "all" pour l’ensemble, soit
       "abesAuthors", "abesSubjects", "multicat", "nb", "refBibs", "teeft" ou "unitex"
   -i  ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques
   -m  liste les fichiers de métadonnées à télécharger, soit "all" pour l’ensemble,
       soit "mods" ou "xml"
   -n  indique le nom du fichier de notices bibliographiques généré (par défaut,
       "notices.txt" dans le répertoire courant ou celui donné par l’option -d)
   -p  indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, "f")
   -r  indique la requête à utiliser, entre simples quotes en présence de blancs ou de
       caractères spéciaux (incompatible avec l’option -c)
   -s  génère un fichier corpus (incompatible avec l’option -c ; en cours de réalisation)
   -t  liste les fichiers de texte intégral à télécharger, soit "all" pour l’ensemble,
       soit "ocr", "pdf", "tei", "txt" ou "zip"
   -v  garde les métadonnées ISTEX dans un fichier "logRequete.txt" dans le répertoire
       courant ou celui donné par l’option -d

Exemple

   harvestCorpus.pl -r '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei -d FichiersPDF