harvest-corpus / outils /
besagni authored 20 days ago
..
extrait-xml-éditeur version 1.5.2 (ajout de tests sur l’appel à "unzip") 20 days ago
ligature Mise à jour de l’aide 5 months ago
stats-corpus Version 2.1.1 (correction mineure) 1 month ago
stats-revues Réagencement et apport de nouveaux outils 5 months ago
README.md Simple correction 5 months ago
README.md

Outils

Ensemble d’outils destinés aux corpus ISTEX et autres fichiers extraits par harvestCorpus.pl.

extrait-xml-éditeur

Outil qui permet d'extraire le fichier XML éditeur d’une archive ZIP et de le renommer pour lui donner la même racine que le document auquel il fait référence. Il travaille sur un fichier ou sur un répertoire de fichiers “.zip”.

ligature

Outil qui permet de rechercher et remplacer dans un fichier ou un répertoire de fichiers une ligature, c’est-à-dire la fusion de deux ou trois caractères en un caractère unique, par la séquence de caractères correspondants.

Liste des ligatures traitées

    Ligature    Équivalent        Code hexadécimal
      ff                ff                 FB00
      fi                fi                 FB01
      fl                fl                 FB02
      ffi                ffi                FB03
      ffl                ffl                FB04

stats-corpus

Outil de statistiques descriptives sur les corpus ISTEX extraits.

stats-revues

Outil de statistiques descriptives sur les revues contenues dans un corpus extrait d’ISTEX.