Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML | Zendy

Guillaume  Wisniewski | Zendy; Ludovic  Denoyer | Zendy; Patrick  Gallinari | Zendy

AI Assistant Blog Pricing

Home ZAIA Blog

Open Access

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML

Author(s) -

Guillaume Wisniewski,

Ludovic Denoyer,

Patrick Gallinari

Publication year - 2005

Language(s) - French

DOI - 10.24348/coria.2005.52

Le domaine de la Recherche d’Information Structuree (RIS) est un domaine qui emerge avec l’arrivee de donnees semi structurees comme les documents XML. Ce domaine, a travers l’initiative INEX, concerne principalement le developpement de moteurs de recherche documentaire. Aujourd’hui, il est necessaire de developper des modeles pour le traitement de differentes problematiques dans les documents structures comme la discrimination ou la restructuration. Dans cet article, nous nous interessons a la classification automatique de documents XML en fonction de leur regularites structurelles. Nous proposons de modeliser la structure des documents XML par un reseau bayesien qui permet de prendre en compte differentes dependances entres les unites structurelles du document. Nous presentons les resultats de nos differents modeles sur le corpus INEX et voyons ensuite comment un de nos modeles permet de determiner un representant de chacune des classes obtenues sous forme d’une DTD probabiliste.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research