Thésaurus distributionnels pour la recherche d'information et vice-versa
Author(s) -
Vincent Claveau,
Ewa Kijak
Publication year - 2015
Language(s) - French
DOI - 10.24348/coria.2015.79
RESUME. Les thesaurus distributionnels sont utiles a de nombreuses tâches du Traitement Auto-matique des Langues. Dans cet article, nous abordons les problemes de leur construction et de leur evaluation sous l'angle de la recherche d'information. Deux contributions sont proposees. D'une part, en poursuite des travaux inities par (Claveau et al., 2014), nous montrons comment les techniques de RI peuvent etre utilisees avec succes pour construire ces thesaurus. Au moyen d'une evaluation directe par comparaison avec des lexiques de reference et au travers de plusieurs experimentations, nous montrons que les resultats obtenus par certains modeles de RI depassent les performances des systemes etat-de-l'art. D'autre part, nous utilisons la RI comme cadre applicatif pour proposer une evaluation indirecte des thesaurus produits. La encore, cette evaluation valide l'approche. Mais surtout, elle permet de mettre en regard les performances obtenues sur cette tâche avec celles des evaluations directes utilisees dans la litterature. Les differences constatees remettent en cause en partie ces pratiques d'evaluation. ABSTRACT. Distributional thesauri are useful in many tasks of Natural Language Processing. In this paper, we address the problem of building and evaluating such thesauri with the help of Information Retrieval concepts. Two main contributions are proposed. First, in the continuation of the work of (Claveau et al., 2014), we show how IR tools and concepts can be used with success to build thesaurus. Through several experiments and by evaluating directly the results with reference lexicons, we show that some IR models outperform state-of-the-art systems. Secondly , we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validate the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences question these evaluation habits. MOTS-CLES : thesaurus distributionnels, semantique distributionnelle, construction de lexique, modeles de RI, evaluation directe, evaluation par tâche, extension de requetes.
Accelerating Research
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom
Address
John Eccles HouseRobert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom