Moissonneur de métadonnées sur la base ISTEX

besagni authored on 19 Jan
stats-revues utilitaire de stats sur les métadonnées 1 year ago
README.md Version 2.3.0 (Ajout du champ ARK) 10 months ago
m2m.pl Version 2.3.0 (Ajout du champ ARK) 10 months ago
README.md

m2m

Outil de moissonnage de métadonnées sur la base ISTEX

Permet de décharger les métadonnées sur l’ensemble de la base ISTEX ou sur un sous-ensemble correspondant à une requête pour en extraire un certains nombre de données qui sont mis au format TSV et sont ensuite soit stockées dans un fichier compressé, soit envoyées sur la sortie standard.

Il est également possible de suivre la progression du travail par mail.

Usage

   m2m.pl -d destination [ -r 'requête' ] [ -m adresse_mail ] [ -q ]

Options

   -d  indique le fichier de résultats. Si le fichier est suffixé par ".gz", il sera 
       compressé par gzip. S’il est suffixé par ".bz2", il sera compressé par "bzip2". 
       Autrement, le suffixe ".gz" sera ajouté et la compression se fera avec "gzip".
       Si l’argument est "-", les résultats non compressés seront envoyés sur la 
       sortie standard. 
   -m  indique l’adresse e-mail où envoyer les informations sur la progression du 
       travail en cours.
   -q  supprime l’affichage des informations sur la progression du travail en cours 
      (indépendamment de ce qui peut être envoyé par e-mail). 
   -r  indique la requête à utiliser, entre simples quotes en présence de blancs ou de
       caractères spéciaux. Par défaut, "m2m" travaille sur la base entière.

Exemple

   m2m.pl -d biofutur.txt -r '(host.title:"Biofutur" OR host.issn:"0294-3506")'

Données extraites

Pour l’instant, on a 20 champs :

  • numéro séquentiel,
  • nom du corpus (≅ nom de l'éditeur),
  • valeur de l’identifiant ARK (sans “ark:”),
  • identifiant ISTEX,
  • type de publication et type(s) de document,
  • ISSN,
  • e-ISSN,
  • ISBN,
  • titre du périodique ou de la monographie,
  • date de publication,
  • numéro de volume,
  • numéro de fascicule,
  • langue(s) du document,
  • nombre de caractères du résumé,
  • version du fichier PDF,
  • liste des enrichissements apportés au document,
  • liste des catégories WoS associées au document,
  • liste des catégories Science-Metrix associées au document,
  • liste des catégories INIST associées au document,
  • liste des mots-clés associés au document.