
Du 8 au 21 janvier 2004:
Voici donc, en bref, le travail que j'ai accompli
depuis le début du projet.
Premièrement, j'ai conçu et publié le site web de
ce projet, à l'aide de l'éditeur HTML FrontPage de la suite Office
2000 de Microsoft.
Ensuite, j'ai tenté d'estimer la borne inférieure de
la tâche à l'aide de deux modèles de base (aussi appelés "baseline").
Le premier est simplement d'utiliser le sens le plus fréquent pour un
mot cible, et le second est un modèle de Bayes naïf, avec un sac de
mots de contexte autour du mot cible. Les deux méthodes s'avèrent
plutôt équivalentes. Sur un sous-ensemble de validation de SemCor,
on obtient environ 72%, et sur Senseval-2, 64%.
Finalement, j'ai cherché dans la littérature une
mesure de la borne supérieure pour une tâche de désambiguïsation.
Deux concepts sont utilisés, soit celui du taux d'entente entre étiqueteurs
(ITA, i.e. "inter-tagger agreement"), et celui de la
reproductibilité ("replicability") de l'étiquetage. Le
second concept donne une borne supérieure plus élevée, soit un peu
plus de 90%. Le premier, lui, varie d'une étude à l'autre, pouvant
aller aussi bas que 57%. Cependant, l'étude la plus pertinente ici,
puisqu'elle porte sur la compétition Senseval-2, donne un ITA de 85%
pour les noms et les adjectifs. Il est à noter que cette statistique
porte sur la tâche "lexical sample" et non pas "all
words", soit la tâche que l'on considère dans ce projet. Il
semble donc possible de dépasser 85%, voir peut-être même 90%, dans
une tâche de désambiguïsation.
J'entamerai donc, dans les prochaines semaines, la
programmation du premier module du modèle graphique.
