R scripts to supervised methods and supervised methods

Elise Moreau authored on 2 Feb 2017
protocole_evaluation Add Readme 1 year ago
README.md Update README.md 1 year ago
README.md

Mode d'emploi

Sommaire

  1. Input et Scripts

    • Méthode semi-supervisée les entités nommées brute

    • Méthode semi-supervisée sur l'entité nommée officielle

    • Méthode supervisée

  2. Output

    • Méthode semi-supervisée

    • Méthode supervisée

  3. Utilisation des Scripts


Input et Scripts

La méthode semi-supervisée se décline en deux grands répertoires :

  • Le premier contient des scripts relatifs à un corpus contenant le résultat d'une fonction de hachage appliquée sur les entités nommées telles que trouvées dans le texte et sur leur métaphone.

  • Le second contient des scripts relatifs à un corpus contenant : le résultat d'une fonction de hachage appliquée sur les entités nommées telles que trouvées dans le texte et sur le métaphone de l'entité officielle extraite de GeoNames.

La méthode supervisée contient un seul script applicable sur n'importe quel type de corpus.

Méthode semi-supervisée sur les entités nommées brutes

Input

Le corpus d'entrée (InputFLOATMtphnVariante.csv) doit contenir au minimum 3 colonnes :

  • 2 colonnes contenant les données relatives à chaque entité qui seront les axes de chacune. Par exemple, ici la première colonne contient le résultat de la fonction de hachage Float sur les entités telles que trouvées dans le texte et la deuxième contient le résultat de la fonction de hachage Float sur leurs métaphones. Ce sont comme des coordonnées GPS qui permettront d'effectuer le clustering basé sur la moyenne des entités proches.

  • 1 colonne appelée "cat" qui contient le numéro de cluster de chaque entité. Les entités qui vont ensemble doivent posséder le même numéro. Si le cluster est inconnu, le numéro doit être 0. Il n'y a pas de limite de clusters, sachant que le plus grand chiffre sera le nombre de clusters total.

Vous pouvez ajouter autant de dimensions que vous le désirez mais la colonne "cat" est indispensable pour le bon fonctionnement du script. N'oubliez pas de nommer vos colonnes. Vous devez réécrire sur ce fichier d'entrée pour que le script fonctionne. Si vous désirez utiliser un autre fichier, il faudra aller modifier le chemin dans chacun des scripts.

Scripts

Il y a quatre répertoires, contenant chacun cinq scripts similaires. Chaque répertoire est relatif à une initialisation du clustering : CEM, SMALL-EM, SEMMAX et Random. Dans chaque répertoire, chaque script a pour point commun l'initialisation (relative au répertoire dans lequel vous vous trouvez) et diverge sur le ou les algoritme(s) appliqué(s) : EM, SEM et EM, CEM et EM.

Il y a un script qui regroupe les quatre autres du même dossier, si vous souhaitez tous les appliquer en une seule fois.

Méthode semi-supervisée sur les entités nommées officielles

Input

Le corpus d'entrée (InputFLOATMtphnOfficielle.csv) doit contenir au minimum 3 colonnes :

  • 2 colonnes contenant les données relatives à chaque entité qui seront les axes de chacune. Par exemple, ici la première colonne contient le résultat de la fonction de hachage Float sur les entités telles que trouvées dans le texte et la deuxième contient le résultat de la fonction de hachage Float sur le métaphone de les entités officielles, extraite de GeoNames. Ce sont comme des coordonnées GPS qui permettront d'effectuer le clustering basé sur la moyenne des entités proches.

  • 1 colonne appelée "cat" qui contient le numéro de cluster de chaque entité. Les entités qui vont ensemble doivent posséder le même numéro. Si le cluster est inconnu, le numéro doit être 0. Il n'y a pas de limite de clusters, sachant que le plus grand chiffre sera le nombre de clusters total.

Vous pouvez ajouter autant de dimensions que vous le désirez mais la colonne "cat" est indispensable pour le bon fonctionnement du script. N'oubliez pas de nommer vos colonnes. Vous devez réécrire sur ce fichier d'entrée pour que le script fonctionne. Si vous désirez utiliser un autre fichier, il faudra aller modifier le chemin dans chacun des scripts.

Scripts

Il y a quatre répertoires, contenant chacun cinq scripts similaires. Chaque répertoire est relatif à une initialisation du clustering : CEM, SMALL-EM, SEMMAX et Random. Dans chaque répertoire, chaque script a pour point commun l'initialisation (relative au répertoire dans lequel vous vous trouvez) et diverge sur le ou les algoritme(s) appliqué(s) : EM, SEM et EM, CEM et EM.

Il y a un script qui regroupe les quatre autres du même dossier, si vous souhaitez tous les appliquer en une seule fois.

Méthode supervisée

Input

Il y a deux corpus d'entrée pour la méthode supervisée : le corpus d'apprentissage et le corpus sur lequel va être appliqué le résultat de l'apprentissage effectué par Mixmod.

Le corpus d'apprentissage (inputSupervise.csv) doit contenir au minimum 3 colonnes

  • 2 colonnes contenant les données relatives à chaque entité qui seront les axes de chacune. Par exemple, ici la première colonne contient le résultat de la fonction de hachage Float sur l'entité telle que trouvée dans le texte et la deuxième contient le résultat de la fonction de hachage Float sur le métaphone de l'entité officielle, extraite de GeoNames. Ce sont comme des coordonnées GPS qui permettront d'effectuer le clustering basé sur la moyenne des entités proches.

  • 1 colonne appelée "cat" qui contient le numéro de cluster de chaque entité. Les entités qui vont ensemble doivent posséder le même numéro. Si le cluster est inconnu, le numéro doit être 0. Il n'y a pas de limite de clusters, sachant que le plus grand chiffre sera le nombre de clusters total.

Vous pouvez ajouter autant de dimensions que vous le désirez mais la colonne "cat" est indispensable pour le bon fonctionnement du script. N'oubliez pas de nommer vos colonnes. Vous devez réécrire sur ce fichier d'entrée pour que le script fonctionne. Si vous désirez utiliser un autre fichier, il faudra aller modifier le chemin dans chacun des scripts. Le corpus de test (inputTest.csv) doit contenir le même nombre de colonnes que le corpus d'apprentissage, sans la colonnes de clusters, et les données doivent être du même type (décimal ou entier). C'est à dire que si vous aviez un corpus d'apprentissage contenant 4 colonnes de données et 1 colonne de clusters, le corpus de test ne doit contenir que 4 colonnes. Sinon le script plante.

Vous devez réécrire sur ce fichier d'entrée pour que le script fonctionne. Si vous désirez utiliser un autre fichier, il faudra aller modifier le chemin dans le script.

Script

Il n'y a qu'un seul script à utiliser.


Output

Méthode semi-supervisée

Pour chaque répertoire vous allez trouver 9 fichiers de sortie distincts :

  • 3 tableau contenant la nouvelle partition (c'est à dire toutes les entités et leurs clusters) -> Un pour chaque critère d'arrêt (BIC, ICL et NEC)

  • 3 représentations graphiques (plot) -> Une pour chaque critère d'arrêt

  • 3 Résumés des résultats -> Un pour chaque critère d'arrêt

Méthode supervisée

La méthode supervisée produit 3 fichiers :

  • Un tableau contenant la nouvelle partition

  • Une représentation graphique des entités mais pas avec les clusters

  • 1 résumé du résultat contenant le modèle appliqué trouvé par l'apprentissage, la vraisemblance du modèle d'apprentissage et le type de données.


Utilisation des scripts

Rstudio doit être lancé dans le dossier "protocole_evaluation" sinon les scripts ne fonctionneront pas. Dans Rstudio, vous ouvrez le fichier que vous désirez, vous sélectionnez la totalité du contenu et vous cliquez sur "run".

Vous pouvez également lancer les scripts depuis la ligne de commandes, en étant dans le dossier "protocole_evaluation" :

e.g :

         Rscript ./methode_supervisee/methode_supervisee.R