Rapport de progrès #1




	Du 8 au 21 janvier 2004: Voici donc, en bref, le travail que j'ai accompli depuis le début du projet. Premièrement, j'ai conçu et publié le site web de ce projet, à l'aide de l'éditeur HTML FrontPage de la suite Office 2000 de Microsoft. Ensuite, j'ai tenté d'estimer la borne inférieure de la tâche à l'aide de deux modèles de base (aussi appelés "baseline"). Le premier est simplement d'utiliser le sens le plus fréquent pour un mot cible, et le second est un modèle de Bayes naïf, avec un sac de mots de contexte autour du mot cible. Les deux méthodes s'avèrent plutôt équivalentes. Sur un sous-ensemble de validation de SemCor, on obtient environ 72%, et sur Senseval-2, 64%. Finalement, j'ai cherché dans la littérature une mesure de la borne supérieure pour une tâche de désambiguïsation. Deux concepts sont utilisés, soit celui du taux d'entente entre étiqueteurs (ITA, i.e. "inter-tagger agreement"), et celui de la reproductibilité ("replicability") de l'étiquetage. Le second concept donne une borne supérieure plus élevée, soit un peu plus de 90%. Le premier, lui, varie d'une étude à l'autre, pouvant aller aussi bas que 57%. Cependant, l'étude la plus pertinente ici, puisqu'elle porte sur la compétition Senseval-2, donne un ITA de 85% pour les noms et les adjectifs. Il est à noter que cette statistique porte sur la tâche "lexical sample" et non pas "all words", soit la tâche que l'on considère dans ce projet. Il semble donc possible de dépasser 85%, voir peut-être même 90%, dans une tâche de désambiguïsation. J'entamerai donc, dans les prochaines semaines, la programmation du premier module du modèle graphique.