
Du 2 février au 25 mars 2004:
J'ai commencé l'analyse des procédures
d'apprentissage totalement et partiellement supervisées. L'approche
utilisée consistait simplement d'observer et d'améliorer la
progression de la valeur moyenne de la vraisemblance négative des
sens cibles, pour ensuite espérer obtenir une progression similaire
au niveau de la désambiguïsation.
Des tests préliminaires ont laissés paraître un
surapprentissage des données d'entraînement. En particulier, la
table des probabilités sens/sujet apprise semblait trop refléter le
corpus d'entraînement, ceci causant de mauvaises performances de
généralisation. J'ai utilisé une interpolation entre la table
apprise et la table des probabilités marginales des sens extraite du
corpus d'entraînement, cette dernière étant plus représentative de
la distribution générale des sens. Suite à cet ajustement, le
comportement en généralisation s'est fortement amélioré. Une
série exhaustive d'expérimentations a alors permis de sélectionner
les hyper-paramètres du modèle (i.e. le nombre de sujet ou "topic"
et la taille de la fenêtre de contexte).
Malheureusement, les bonnes performances au niveau de
la moyenne de la vraisemblance négative ne sont pas observées dans
la tâche de désambiguïsation. Le modèle obtient près de 72% de
bonnes classifications, soit environ la même chose que pour le choix
du sens le plus fréquent. J'analyse actuellement la distribution des
sens cibles afin de comprendre la raison pour laquelle l'augmentation
de leur vraisemblance n'a pas d'impact sur la désambiguïsation.
Restera aussi à tester l'apprentissage non-supervisé
et l'apprentissage sur pseudo-données.
