Rapport de progrès #4




	Du 2 février au 25 mars 2004: J'ai commencé l'analyse des procédures d'apprentissage totalement et partiellement supervisées. L'approche utilisée consistait simplement d'observer et d'améliorer la progression de la valeur moyenne de la vraisemblance négative des sens cibles, pour ensuite espérer obtenir une progression similaire au niveau de la désambiguïsation. Des tests préliminaires ont laissés paraître un surapprentissage des données d'entraînement. En particulier, la table des probabilités sens/sujet apprise semblait trop refléter le corpus d'entraînement, ceci causant de mauvaises performances de généralisation. J'ai utilisé une interpolation entre la table apprise et la table des probabilités marginales des sens extraite du corpus d'entraînement, cette dernière étant plus représentative de la distribution générale des sens. Suite à cet ajustement, le comportement en généralisation s'est fortement amélioré. Une série exhaustive d'expérimentations a alors permis de sélectionner les hyper-paramètres du modèle (i.e. le nombre de sujet ou "topic" et la taille de la fenêtre de contexte). Malheureusement, les bonnes performances au niveau de la moyenne de la vraisemblance négative ne sont pas observées dans la tâche de désambiguïsation. Le modèle obtient près de 72% de bonnes classifications, soit environ la même chose que pour le choix du sens le plus fréquent. J'analyse actuellement la distribution des sens cibles afin de comprendre la raison pour laquelle l'augmentation de leur vraisemblance n'a pas d'impact sur la désambiguïsation. Restera aussi à tester l'apprentissage non-supervisé et l'apprentissage sur pseudo-données.