z-logo
open-access-imgOpen Access
Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles
Author(s) -
Young-Min Kim,
Jean-François Pessiot,
Massih-Reza Amini,
Patrick Gallinari
Publication year - 2008
Language(s) - French
DOI - 10.24348/coria.2008.119
Dans cet article nous proposons une technique a base d’apprentissage non-supervise pour la reduction de dimension des donnees textuelles. Cette technique est basee sur l’hypothese que les termes co-occurrants dans les memes documents avec les memes frequences sont semantiquement proches. Suivant cette hypothese les termes sont d’abord regroupes avec l’algorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite representes dans l’espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de reduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validite de notre approche en comparant le resultat de ce clustering avec ceux obtenus dans l’espace sac-de-mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur deux collections standard de WebKB et de Reuters.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here
Accelerating Research

Address

John Eccles House
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom