harvest-corpus / outils /
besagni authored on 2 Oct
..
extrait-xml-éditeur Correction d’un "bug" concernant la casse des extensions XML 1 month ago
ligature Mise à jour de l’aide 11 months ago
stats-corpus Échappement des caractères spéciaux dans la sortie JSON 1 month ago
README.md Mise à jour de README.md 2 months ago
README.md

Outils

Ensemble d’outils destinés aux corpus ISTEX et autres fichiers extraits par harvestCorpus.pl.

extrait-xml-éditeur

Outil qui permet d'extraire le fichier XML éditeur d’une archive ZIP et de le renommer pour lui donner la même racine que le document auquel il fait référence. Il travaille sur un fichier ou sur un répertoire de fichiers “.zip”.

ligature

Outil qui permet de rechercher et remplacer dans un fichier ou un répertoire de fichiers une ligature, c’est-à-dire la fusion de deux ou trois caractères en un caractère unique, par la séquence de caractères correspondants.

Liste des ligatures traitées

    Ligature    Équivalent        Code hexadécimal
      ff                ff                 FB00
      fi                fi                 FB01
      fl                fl                 FB02
      ffi                ffi                FB03
      ffl                ffl                FB04

stats-corpus

Outil de statistiques descriptives sur les corpus ISTEX extraits.