@perrin perrin authored on 9 Mar 2016
bash Commit -- 09/03/2016 @ 10:17:23 8 years ago
nodejs Fichier test 200 mots clés 9 years ago
.gitignore possibilité de choisir le type de fulltexte à télécharger 9 years ago
README.md Update README.md 8 years ago
README.md

istex-api-harvester

!!! Dépôt obsolète : utilisez/contribuez au dépôt Github : https://github.com/istex/istex-api-harvester !!!

Programmes permettant de moissonner les corpus proposés par l'API de la plateforme ISTEX.

Plusieurs moissonneurs sont proposés dans différents langages de programmation :

Le programme de moissonnage le plus complet est la version NodeJS. La suite de ce README documente donc l'utilisation de ce script.

Pré requis

Les prérequis pour l'utiliser sont :

  • Avoir nodejs d'installé sur sa machine (de préférence sur un OS de type Unix) -> http://nodejs.org/
  • Disposer d'un accès réseau et d'avoir une adresse ip autorisée par la plateforme ISTEX

Installation

npm install -g istex-api-harvester

Usage

Par exemple pour moissonner les 850 premiers (ordre d'indexation) documents du corpus "springer" il faut taper ceci:

istex-api-harvester --corpus springer --size 850

Pour moissonner les 100 documents les plus pertinants correspondant à la requête "hypertex" tout corpus confondus :

istex-api-harvester --query hypertext --size 100

Pour moissonner les 50 documents les plus pertinants correspondant à l'ensemble des mots-clés contenus dans un fichier "keywords.txt" tout corpus confondus :

istex-api-harvester --file keywords.txt --size 50

Les mots-clés contenus dans le fichier doivent être ligne par ligne ( 1 mot-clé par ligne ).

Pour moissonner les 15 documents les plus pertinants correspondant à l'ensemble des mots-clés contenus dans un fichier "keywords.txt" et correspondant également à la requête hypertext tout corpus confondus :

istex-api-harvester --file keywords.txt --query hypertext --size 15

Pour moissonner également les pleins textes :

istex-api-harvester --query hypertext --size 100 --fulltext 1
istex-api-harvester --query hypertext --size 100 --fulltext all
istex-api-harvester --query hypertext --size 100 --fulltext zip
istex-api-harvester --query hypertext --size 100 --fulltext pdf

Pour choisir le dossier de destination des fichiers téléchargés (par exemple dans le dossier ./tmp/experience) :

istex-api-harvester --query hypertext --output ./tmp/experience

Par défaut, les fichiers sont téléchargés dans le dossier "nom du corpus" du dossier courant. Si aucun nom de corpus n'a été renseigné en option, les documents seront téléchargés dans le dossier "istex" du dossier courant.

Les métadonnées au format MODS seront récupérées ainsi que le plein texte qui est la pluspart du temps au format pdf. Les données téléchargées sont stockées dans le répertoire "./springer/" Pour les deux premiers documents téléchargés, on aura par exemple les fichiers suivants qui seront créés :

  • ./springer/707770bf3aea02d1a81854bdd46533becfde35c9.mods.xml
  • ./springer/707770bf3aea02d1a81854bdd46533becfde35c9.pdf
  • ./springer/8db224e66c7fa77be4210d4d9ddb5dd84666066f.mods.xml
  • ./springer/8db224e66c7fa77be4210d4d9ddb5dd84666066f.pdf

En rajoutant l'option --zip 1, l'ensemble des fichiers téléchargés seront rassemblés dans un unique fichier zip au lieu d'être stockés dans un répertoire.

A noter que la longue chaîne de caractère est l'identifiant unique du document en question. A noter que le temps d'exécution du script dépend fortement de la qualité du réseau et du volume des données téléchargées.