Newer
Older
harvest-corpus / README.md
@besagni besagni on 17 Jan 2018 2 KB Ancienne doc
harvest-corpus
===============

Outil d’extraction de corpus ISTEX

Permet de décharger un corpus de fichiers textes (PDF, TEI, TXT), de fichiers de
métadonnées (Mods, XML) ou de fichiers d’enrichissement depuis la base ISTEX à partir
d’une requête ou d’un fichier corpus. Également, renomme les fichiers déchargés et
génère un fichier de notices bibliographiques.

**N.B. : Cette documentation n'est pas à jour pour l’instant.**

### Usage
```
    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) ( -t (all|ocr|pdf|tei|txt|zip)[,(ocr|pdf|tei|txt|zip)]* |
                       -e (all|multicat|refBibs|...)[,(multicat|refBibs|...)]* | -m (all|mods|xml) )
                       [ -d destination ] [ -n notices ] [ -p préfixe ] [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl ( -r 'requête' | -c fichier_corpus ) -a [ -d destination ] [ -n notices ] [ -p préfixe ]
                     [ -s fichier_corpus ] [ -iv ]
    harvestCorpus.pl -h
```

### Options
```
   -a  télécharge tous les fichiers correspondants aux documents
   -c  utilise le fichier corpus "fichier_corpus" (incompatible avec les options -r
       et -s ; en cours de réalisation)
   -d  indique le répertoire de destination des documents (répertoire courant par défaut)
   -h  affiche cette aide
   -e  liste les enrichissements à télécharger, soit "all" pour l’ensemble, soit
       "abesAuthors", "abesSubjects", "multicat", "nb", "refBibs", "teeft" ou "unitex"
   -i  ajoute l’indexation automatique, e.g. TEEFT, dans les notices bibliographiques
   -m  liste les fichiers de métadonnées à télécharger, soit "all" pour l’ensemble,
       soit "mods" ou "xml"
   -n  indique le nom du fichier de notices bibliographiques généré (par défaut,
       "notices.txt" dans le répertoire courant ou celui donné par l’option -d)
   -p  indique le préfixe utilisé pour renommer les fichiers téléchargés (par défaut, "f")
   -r  indique la requête à utiliser, entre simples quotes en présence de blancs ou de
       caractères spéciaux (incompatible avec l’option -c)
   -s  génère un fichier corpus (incompatible avec l’option -c ; en cours de réalisation)
   -t  liste les fichiers de texte intégral à télécharger, soit "all" pour l’ensemble,
       soit "ocr", "pdf", "tei", "txt" ou "zip"
   -v  garde les métadonnées ISTEX dans un fichier "logRequete.txt" dans le répertoire
       courant ou celui donné par l’option -d
```

### Exemple
```
   harvestCorpus.pl -r '(host.title:"Biofutur" OR host.issn:"0294-3506")' -t pdf,tei -d FichiersPDF
```