
The Use of Statistical Characteristics to Reduce the Volume of Textual Information while Preserving Its Informativeness
Author(s) -
M V Vtyurin,
S V Mochenov
Publication year - 2018
Publication title -
vestnik iževskogo gosudarstvennogo tehničeskogo universiteta/vestnik ižgtu imeni m.t. kalašnikova
Language(s) - Russian
Resource type - Journals
eISSN - 2413-1172
pISSN - 1813-7903
DOI - 10.22213/2413-1172-2018-2-173-179
Subject(s) - volume (thermodynamics) , computer science , information retrieval , physics , quantum mechanics
Рассматривается возможность применения исследователями специализированных алгоритмов для информационной системы, обеспечивающей сокращение объема анализируемой текстовой информации в процессе информационного поиска. Актуальность работы обосновывается сложностью информационного поиска, связанного с решением пользователем конкретной задачи и необходимостью переработки больших объемов текстовых данных. Целью является сокращение объема анализируемой текстовой информации русскоязычных текстов при сохранении их смысловой составляющей. Приведено описание ранее разработанной информационной системы для сокращения объема текстовой информации в процессе информационного поиска. Представлено описание двух различных подходов к анализу текста, что позволяет осуществить сравнительный анализ получаемых результатов. Выполнена реализация данных подходов на базе ранее разработанной информационной системы, в структурную схему и алгоритм функционирования которой внесены соответствующие изменения. Приведены результаты проведенного экспериментального исследования. Из результатов применения описываемых подходов следует, что основная доля предложений, соответствующих запросу пользователя по выбранному тексту, представлена в заключительной части текста, что позволяет исследователю обратить внимание именно на эту часть анализируемого документа. Получены результаты, которые могут быть использованы для составления рефератов и аннотаций анализируемых документов. В дальнейшем предполагается формировать авторские смысловые группы слов, которые могут быть использованы исследователем для синтеза новых знаний.