Description détaillée

Titre

Implantation et analyse d’un modèle graphique de désambiguïsation à entraînement supervisé, semi-supervisé et non-supervisé.

Spécification fonctionnelle

L'objectif de ce projet est d'implanter un algorithme de désambiguïsation probabiliste basé sur un modèle graphique, pour ensuite en analyser la performance en ciblant ses forces et ses faiblesses. Entre autre, le modèle suggéré permettra de mieux examiner l'impact des différents sujets d'un même texte sur la détermination du sens de ses mots, ainsi que leur utilité pour désambiguïser. Une analyse poussée, tenant compte des différences entre mots de classes syntaxiques distinctes, sera de mise.

Pour une description détaillée du modèle graphique:
En anglais: pdf ps
En français: pdf ps

On a choisi ici d'utiliser WordNet comme inventaire de sens. Ce dictionnaire offre une vaste hiérarchie de plus de 100 000 sens et concepts, et est aussi vaguement utilisé. Sa version anglaise est gratuite et disponible pour plate-forme Unix et Windows. La version 1.7 sera utilisée.

De plus, on a accès à trois corpus de données étiquetées, soient:
- SemCor, 230 000 mots étiquetés (disponible ici)
- eXtended WordNet, 560 000 mots étiquetés
- Brown Corpus, 1 000 000 mots non-étiquetés
- Senseval-2 English All Word Task, 2400 mots étiquetés

Un sous-ensemble de SemCor sera utilisé comme ensemble de validation, et le corpus de la tâche English-All-Word de la compétition Senseval-2 sera utilisé comme ensemble de test. Les autres données serviront à l'entraînement du modèle.

Environnement technique et Architecture logicielle

Le travail de programmation se fera sur un poste de travail du laboratoire LISA, fonctionnant sous RedHat version 9.0. Les différents tests seront lancés sur certains des 10 ordinateurs Clyb[10-19] à processeurs Intel bi-processeur 750 MHz fonctionnant sous Linux.

La librairie PLearn sera utilisée pour supporter l'implantation du modèle. Cette librairie est soutenue par SourceForge et a été développée par les membres du LISA. Elle a été conçue expressément afin de faciliter l'implantation de programmes liés à l'apprentissage machine. Elle offre une hiérarchie sophistiquée, comprenant des classes d'apprentissage ("learner"), différents formats et type de matrices, et un système de variables facilitant l'apprentissage par descente de gradient. Elle comporte aussi une interface permettant de consulter le dictionnaire de sens WordNet, quelque soit la version (la version 1.7 sera cependant retenue pour le projet). De plus, elle permet de stocker sur disque et d'accéder à plusieurs corpus étiquetés selon la hiérarchie des sens de WordNet.

Modules principaux de travail

Détermination des bornes inférieure et supérieure

Avant de débuter, il est important d'avoir une idée de la performance minimale à atteindre et de savoir la limite atteignable dans une tâche de désambiguïsation. Il faudra alors consulter la littérature sur le sujet. Du même coup, il sera intéressant d'obtenir les performances d'autres systèmes, pour comparaison ultérieure.

Implantation du modèle graphique à l'aide de la librairie PLearn

L'algorithme sera implanté par une seule classe. La structure de base de la classe soutiendra trois modules, chacun liés à un type différent d'apprentissage. Il y a l'apprentissage totalement supervisé, l'apprentissage partiellement ou non-supervisé et l'apprentissage sur des pseudo-données.

Test du modèle et analyse des résultats

Chacun des modules seront testés exhaustivement, afin de détecter leurs forces et faiblesses. Une analyse en fonction de la classe syntaxique des mots ambiguës devra être effectuée. Des comparaisons pourront aussi être faites avec d'autres systèmes ayant participé à la compétition Senseval-2.