Énoncé

Titre

Implantation et analyse d’un modèle graphique de désambiguïsation à entraînement supervisé, semi-supervisé et non-supervisé.

Contexte

La désambiguïsation est une tâche qui attire en ce moment le plus d’attention dans le domaine de l’intelligence artificielle appliqué à la linguistique. Elle consiste à assigner aux mots d’un texte leur sens correct en fonction de leur contexte. Quoiqu’elle est été identifiée comment étant une tâche intermédiaire dans le traitement de la langue, on dit qu’elle forme un problème AI-complet, i.e. un problème dont la résolution nécessite celle des problèmes les plus difficiles en intelligence artificielle. Un outil de désambiguïsation pourrait grandement profiter aux domaines de la traduction automatique et de la recherche d’information. Même si la désambiguïsation est abordée depuis les années 50, peu de progrès ont été réalisés jusqu’à ce jour. On suggère donc ici un modèle graphique qui tente d’utiliser les différents sujets (ou « topic ») d’un texte afin de déterminer correctement le sens de ses mots. Cette approche a été peu utilisée, les différents modèles développés jusqu’à maintenant ne considérant normalement que le micro-contexte (i.e. une fenêtre de 2 à 3 mots autour du mot cible). Ce modèle nécessite un module d’apprentissage, mais a la particularité de pouvoir être entraîné sur des données totalement étiquetées, partiellement étiquetées, totalement non-étiquetées, ou des pseudo-données donnant de l'information sur la corrélation entre deux sens ou un lemme et un sens. L’algorithme EM sera utilisé pour faire l’apprentissage.

Travail demandé

détermination de bornes inférieure et supérieure de la tâche;

implantation du modèle graphique à l'aide de la librairie PLearn, soit:

implantation du module d’entraînement totalement supervisé;

implantation du module d'entraînement partiellement supervisé ou non-supervisé;

implantation du module d’entraînement sur pseudo-données;

test du modèle et analyse des résultats.

Environnement de travail

Postes de travail du laboratoire LISA, fonctionnant sous RedHat version 9.0, ainsi que 10 ordinateurs Clyb[10-19] à processeurs Intel bi-processeur 750 MHz fonctionnant sous Linux. L'implantation se fera dans le cadre du développement de la librairie PLearn, soutenue par SourceForge et développée au LISA. La librairie PLearn est écrite en C++, et comprend une interface au dictionnaire de sens WordNet. Sont aussi accessibles quelques corpus étiquetés provenant de différentes sources.

Responsable

Yoshua Bengio
Professeur titulaire
Local Room: 3339, Pavillon André Aisenstadt
bengioy@iro.umontreal.ca
Téléphone: 514 343-6804
Fax: 514 343-5834