z-logo
open-access-imgOpen Access
Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso
Author(s) -
Carlos G. Figuerola,
Raquel Goméz-Díaz,
José Luís Alonso Berrocal,
Angel Rodriguez
Publication year - 2011
Publication title -
scire
Language(s) - Spanish
Resource type - Journals
eISSN - 2340-7042
pISSN - 1135-3716
DOI - 10.54886/scire.v17i1.3895
Subject(s) - humanities , computer science , art
La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los duplicados que encontramos en el mundo real no son exactamente iguales, por cambios en el formato, las cabeceras, las etiquetas META o las plantillas de visualización. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. Se presenta la posibilidad de utilizar fuzzyhashing para producir huellas digitales de dos documentos que se pueden comparar para proporcionar una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rollinghash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de programas maliciosos, correo basura, detección de virus, etc. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here