
Reducing the Text Document Volume Based on Analysis of Its Correlation Dependencies
Author(s) -
S V Mochenov,
R. R. Ahmetgaleev,
Stanislav Lazarev
Publication year - 2020
Publication title -
intellektualʹnye sistemy v proizvodstve
Language(s) - Russian
Resource type - Journals
eISSN - 2410-9304
pISSN - 1813-7911
DOI - 10.22213/2410-9304-2020-1-72-82
Subject(s) - volume (thermodynamics) , correlation , computer science , information retrieval , natural language processing , artificial intelligence , mathematics , physics , thermodynamics , geometry
В статье рассматриваются вопросы анализа текстовой информации с целью сокращения ее объема и представления содержания текста произвольных размеров в виде реферата. Текст рассматривается как генеральная совокупность предложений. В качестве основы для проведения анализа текста используются частотные (весовые) характеристики слов, в частности, существительных, используемых автором при построении предложений. Определена роль отдельных категорий слов. На основе весовых характеристик все слова разделяются на многократно и однократно используемые. Сформулированы рекомендации по применению слов-фильтров для извлечения из текста определенных предложений или группы предложений и представления их пользователю. Разработана методика анализа текстового документа. Анализируемый текст разбивается на группы предложений. Многократные слова используются в качестве базовых слов при определении корреляционных зависимостей между предложениями текста. На основе корреляционных зависимостей по каждой группе определяется одно приоритетное предложение, отражающее смысловую составляющую участка текста, задаваемого группой. За счет разбиения на группы достигается сокращение объема текста. Общее число приоритетных предложений соответствует числу групп. Эти предложения могут быть использованы для формирования реферата и предоставляют исследователю (пользователю) адекватную и сжатую информацию о содержании анализируемого документа. В статье приводятся примеры анализа, определяются направления дальнейших исследований.