Rapport final




	RAPPORT COMPLET: format ps ou pdf RÉSUMÉS: français ou anglais Résumé en français La désambiguïsation sémantique est une tâche qui suscite beaucoup d'intérêt dans la communauté scientifique d'apprentissage machine. Même si elle a été sujette à plusieurs travaux depuis les débuts du traitement automatique de la langue naturelle, les avancements importants se font toujours attendre. Comme projet, j'ai donc implémenté et analysé un modèle graphique probabiliste qui tente de saisir la notion de sujet dans un texte. La librairie PLearn a été utilisée pour coder le modèle, et la version 1.7.1 de WordNet a servi de dictionnaire de sens. Afin d'apprendre les différents paramètres du modèle, l'algorithme EM est utilisé. Cet algorithme d'apprentissage permet de tirer profit de données totalement ou partiellement étiquetées, de données non-étiquetés ainsi que de "pseudo-données", comme des couples de sens. Ici, on a utilisé les corpus SemCor, eXtended WordNet et Senseval-2 comme données totalement ou partiellement étiquetées, le corpus Brown comme données non-étiquetées, et la hiérarchie WordNet comme "pseudo-données". Afin de poser la borne inférieure de la tâche, j'ai implanté les algorithmes du sens le plus fréquent et de Bayes naïf. Ceux-ci donnent respectivement 72.3% et 73.2% de bonnes classifications. Comme borne supérieure, la littérature fait mention de deux concepts. Le premier est celui de l'accord entre étiqueteur ("Inter-tagger agreement" ou ITA), i.e. la proportion du nombre d'exemples pour lesquelles deux êtres humains sont d'accord sur l'étiquette sémantique à assigner. Les chiffres varient entre 57% et 85%. Une autre mesure, plus précise, est celle de la reproductibilité ("replicability"), soit la proportion du nombre d'exemples pour lesquelles deux équipes d'experts, agissant selon une procédure stricte d'arbitration de l'étiquetage, produisent ou assigne la même étiquette. On parle alors d'un chiffre beaucoup plus élevé, soit près de 95%. C'est cette borne qu'on va retenir. L'implantation s'est faite à l'aide de la librairie PLearn, qui offre une vaste gamme d'outils informatiques pour la conception d'applications en apprentissage machine. Le programme consiste ici en une dérivation de l'objet "Learner" de cette librairie. En plus des spécifications de la hiérarchie, elle est caractérisée par deux méthodes. La première (compute_posteriors), retourne les probabilités a posteriori des sens possibles des mots à désambiguïser dans une fenêtre mobile, qui ne contient que des mots à classe ouvert (i.e. ayant une représentation sémantique). La seconde (em_learning) fait une mise à jour des probabilités de variables non-observées du modèle selon la procédure de l'algorithme EM, à l'aide de l'information contenue dans le corpus d'entraînement. Trois cas sont distingués, soient les cas de données totalement/partiellement supervisées, de données non supervisées, et de pseudo-données. La procédure supervisée permet d'obtenir des résultats en validation légèrement inférieure à l'algorithme du sens le plus fréquent. Ceci est dû au manque de données comparativement à la taille de l'espace des fenêtres de mots possibles. En effet, en validation, seulement 55.9% des configurations de fenêtres de mots et de sens étiquetés ont au moins un mot en commun avec une fenêtre déjà rencontrée en entraînement, pour un même mot cible. Au niveau des sens en commun, on parle de 21.5% des fenêtres rencontrées. Malheureusement, les données non-étiquetées n'aident pas à augmenter la vraisemblance ou la classification des données. Ceci est probablement dû à une mauvaise base en apprentissage supervisé. L'apprentissage sur pseudo-données permet par contre de faire un léger gain au niveau de la log-vraisemblance négative, mais on ne réussit pas à améliorer la classification. Même si on s'attend à ce que l'information contenue dans WordNet soit fiable, le problème est qu'il ne semble pas exister de lien clair entre la distance dans WordNet et la cooccurrence des sens dans un texte. Lorsqu'on utilise les données étiquetées et les pseudo-données, et qu'on retient les paramètres calibrés en validation, on obtient 64.6% de bonnes classifications en test. Ce résultat est indiscernable de celui de l'algorithme du sens le plus fréquent et de Bayes naïf, selon le test de McNemar. Le modèle présenté ne semble donc pas réussir à saisir une relation sémantique complexe entre les mots. Cependant, le manque de données par rapport à la taille de l'espace échantillonnal ne nous permet pas d'évaluer de façon juste la capacité du modèle. Je suggère donc d'adapter le modèle à des données de type bi-textes, qui forment un base de données imposante et potentiellement utile à la désambiguïsation. English abstract Sense disambiguation is a task that attracts great interest in the field of machine and statistical learning. Even though it has been discussed since the beginning of automatic natural language processing, no important breakthroughs have been shown. The project that I worked on is the implementation and analysis of a probabilistic graphical model, which tries to use the notion of subject in a text. The PLearn library was used to code the model, and the 1.7.1 version of WordNet served as the sense inventory. To learn the parameters of the model, the EM algorithm was used. This algorithm can learn from tagged and un-tagged data, but also pseudo-data, like pairs of senses here. I got the tagged examples from the SemCor, eXtended WordNet and Senseval-2 corpora, the untagged data from the Brown corpus, and the pseudo-data from the WordNet hierarchy. In order to get estimates of the lower bound of the task, I implemented the most frequent sense and naive Bayes algorithms, which gave respectively 72.3% and 73.2% correct classifications. As a higher bound estimate, the literature mentions two concepts. The first one is the inter-tagger agreement (ITA), which is the proportion of examples for which two humans agree about the corresponding semantic tag. Numbers vary from 57% to 85%. The second one, more precise, is the replicability, i.e. the proportion of examples for which two teams of experts working according to a complex tagging protocol, including an arbitration procedure, produces the same tagging. We then have as much as 95% agreement, and this is the higher bound that we will consider. The implementation used the PLearn library, which offers a large amount of tools for machine learning applications. The program consists of derivation of the Learner class. In addition to the specifications of the class heritage, the new class is characterized by two functions. The first one is named compute_posteriors and returns the posterior probabilities of the possible senses of the words to disambiguate, contained in a moving window in the corpus. The only words considered are open class words, i.e. words having at least one sense. The second function, em_learning, updates the probabilities of the non-observed variables in the model according to the EM algorithm, using the information in the training corpus. Three cases are distinguished: learning on totally/partially tagged data, untagged data and pseudo-data. The supervised procedure gives slightly inferior results than the most frequent sense algorithm. This is a consequence of the lack of data compared to the size of the space of possible windows of words to disambiguate. In fact, in validation, only 55.9% of the words/senses windows seen in validation have at least one word in common with a window already encountered in the training corpus. If we consider the same measure, but for the senses, we obtain 21.5%. Unfortunately, the untagged data doesn't help to improve the results in likelihood and classification of the data. This is normally a consequence of bad results in supervised only learning. The learning on pseudo-data though gives good results when we consider the likelihood of the data, but we don't get the same improvement in classification. Even though we expect that the information in WordNet is reliable, the problem rather seems to be that there is no clear relationship between the distance of senses in WordNet and their co-occurrence in a text. If we use tagged data and pseudo-data with the model that is tuned with the validation corpus, we obtain 64.6% good classifications on the test set. This result is not significantly different from those obtained with the most frequent sense and naive Bayes algorithms, according to the McNemar test. In conclusion, the presented model doesn't seem to be able to represent a complex semantic relationship between words. On the other hand, the lack of data compared to the size of the sampling space doesn't let us evaluate the application in a fair way. I hereby suggest that we adapt the model to bi-texts, which offer an incredibly large amount of data that could be useful to disambiguation.