z-logo
open-access-imgOpen Access
Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML
Author(s) -
Guillaume Wisniewski,
Ludovic Denoyer,
Patrick Gallinari
Publication year - 2005
Language(s) - French
DOI - 10.24348/coria.2005.52
Le domaine de la Recherche d’Information Structuree (RIS) est un domaine qui emerge avec l’arrivee de donnees semi structurees comme les documents XML. Ce domaine, a travers l’initiative INEX, concerne principalement le developpement de moteurs de recherche documentaire. Aujourd’hui, il est necessaire de developper des modeles pour le traitement de differentes problematiques dans les documents structures comme la discrimination ou la restructuration. Dans cet article, nous nous interessons a la classification automatique de documents XML en fonction de leur regularites structurelles. Nous proposons de modeliser la structure des documents XML par un reseau bayesien qui permet de prendre en compte differentes dependances entres les unites structurelles du document. Nous presentons les resultats de nos differents modeles sur le corpus INEX et voyons ensuite comment un de nos modeles permet de determiner un representant de chacune des classes obtenues sous forme d’une DTD probabiliste.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here
Accelerating Research

Address

John Eccles House
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom