istex / Unitex-concat
Les scripts pour la validation TEI, la concaténation, le comptage les entités nommées sorties par Unitex
zeynalig authored on 11 Jul
README.md Update README.md 7 months ago
count-EN.sh Add files via upload 7 months ago
lance-make-tei.sh Add files via upload 7 months ago
validate.sh Add files via upload 7 months ago
README.md

Unitex-concat

Les scripts pour la validation TEI, la concaténation, le comptage les entités nommées sorties par Unitex

Les fichiers en sortie d’Unitex sont en format TEI et sont ventilés dans une arborescence à 3 niveaux. Pour chaque corpus, au premier niveau, nous disposons de 16 répertoires : de 0 à 9 et de A à F. Nous concaténons chaque répertoire dans un fichier séparé.

Pour concaténer les fichiers d’Unitex(pour une livraison à l'API), nous utilisons deux scripts :

  1. make-tei.sh
  2. lance-make-tei.sh

Avec le script make-tei.sh, nous concaténons les fichiers en sortie d’Unitex. Il traite tous les documents ayant l'extension //.fulltext.tei.xml.result.txt, voici la structure des fichier sorties par ce script :

<?xml version=\"1.0\" encoding=\"UTF-8\" ?> [les fichiers sorties d’Unitex l’un à la suite de l’autre dans des balises <TEI>]

Le script lance-make-tei.sh exécute le script make-tei.sh avec une option nohup pour avoir plus de rapidité d’exécution. Dans ce premier script, nous faisons un array avec tous les répertoires et nous exécutons le second script pour chacun de ces répertoires. Donc, pour concaténer nos corpus, nous devons juste donner le chemin vers les dossiers de notre corpus et modifier la ligne suivante dans le script lance-make-tei.sh :

nohup [chemin vers le script make-tei.sh] -i [chemin vers le corpus à concaténer]/$REP -o [chemin vers le dossier sorti-$REP.xml] &
-i input_directory Un répertoire contenant des fichiers XML/TEI générés par UC -o output_file.xml.tei Fichier de sortie

Exemple :concaténer tous les résultats d'UC sur le corpus brill-hacco anglais

nohup /applis/unitex/home/unitex_output/make-tei.sh -i /applis/unitex/home/corpus_out/out_brill-hacco_eng/$REP -o /applis/unitex/home/corpus_out_concatenes/out_brill-hacco_en_concat/out_brill-hacco_eng-concat-$REP.xml &