z-logo
open-access-imgOpen Access
Stable assessment of the quality of similarity algorithms of character strings and their normalizations
Author(s) -
S. V. Znamenskiî
Publication year - 2018
Publication title -
programmnye sistemy: teoriâ i priloženiâ
Language(s) - Russian
Resource type - Journals
ISSN - 2079-3316
DOI - 10.25209/2079-3316-2018-9-4-579-596
Subject(s) - character (mathematics) , similarity (geometry) , quality assessment , quality (philosophy) , algorithm , computer science , artificial intelligence , mathematics , epistemology , evaluation methods , engineering , philosophy , geometry , image (mathematics) , reliability engineering
Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены. Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков. Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here