z-logo
open-access-imgOpen Access
Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов
Author(s) -
Элеонора Александровна Головастова,
Дмитрий Николаевич Красотин
Publication year - 2020
Publication title -
vestnik voronežskogo gosudarstvennogo universiteta. seriâ sistemnyj analiz i informacionnye tehnologii
Language(s) - Russian
Resource type - Journals
ISSN - 1995-5499
DOI - 10.17308/sait.2020.3/3045
Subject(s) - computer science , dbscan , artificial intelligence , cluster analysis , canopy clustering algorithm , correlation clustering
В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов. Поэтому в данной работе после определения ключевых слов элементов выборки строится инвертированный индекс для словаря корпуса текстов. Далее с помощью найденного инвертированного индекса определяется объект связей документов корпуса, который впоследствии передаётся в качестве аргумента в алгоритм Dbscan. Подобный подход к реализации поставленной задачи выбран из-за предположения о его быстродействии. Для проверки этого предположения проводится замер времени выполнения ключевых операций, значения которого приводятся в качестве иллюстрации результата тестирования предложенного метода кластеризации.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here