
The Oldest Russian Manuscripts as an Object of Statistical Analysis
Author(s) -
В. А. Баранов,
Oleg Zholobov
Publication year - 2020
Publication title -
intellektualʹnye sistemy v proizvodstve
Language(s) - Russian
Resource type - Journals
eISSN - 2410-9304
pISSN - 1813-7911
DOI - 10.22213/2410-9304-2019-4-63-77
Subject(s) - object (grammar) , statistical software , statistical analysis , art , history , computer science , artificial intelligence , mathematics , statistics , data science
В работе описаны два статистических эксперимента, целью которых стало выявление корреляционной близости / удаленности 12 текстов, дошедших до нас в русских списках XI века, и сопоставление с ними произведений автора XII века Кирилла Туровского (РНБ, F.п.I. 39, XIII в.; лл. 1–48), приведены результаты сопоставительного анализа: а) различных способов извлечения лингвистических единиц из текстов и б) выборок разного объема, а также лингвистической интерпретации основных закономерностей группировки рукописей. Степень лингвостатистической тесноты рукописей вычисляется в два этапа: на первом сопоставляются перечни наиболее частотных слов каждой пары текстов (вычисляется коэффициент ранговой корреляции Спирмена), на втором тексты группируются на основе полученных значений корреляции, которые принимаются за расстояния между рукописями (используется кластерный анализ и строится дендрограмма). Извлечение наиболее частотных слов рукописей, построение ранжированных перечней, получение сведений о количестве (а соответственно, о ранге) каждой из форм в других кодексах выполнено с помощью модуля статистики исторического корпуса «Манускрипт». Вычисление коэффициентов корреляции текстов и кластеризация текстов осуществлены с помощью программного пакета «Статистика» (TIBCO Software Inc.). Проанализированы перечни разного объема (от 50 до 300 словоформ), состоящие из единиц разной степени унификации относительно текстовых форм.Результатом первого эксперимента стало выявление трех основных устойчивых кластеров подкорпуса – группы Евангелий, группы миней и группы сборников разного содержания. Второй эксперимент дал возможность увидеть зависимость близости проповедей Кирилла Туровского разным кластерам от степени унификации форм в выборках и объема последних.Лингвистический анализ результатов позволил выявить лексико-грамматические и лексико-семантические факторы, определяющие вхождение текстов Кирилла Туровского при различных исходных условиях выборки в разные кластеры – в группу Евангельских списков (при объеме выборки 50 или 100 слов), в подгруппу сборников (при выборке в 200 слов), в подгруппу Изборника 1073 г. и Пандектов Антиоха (выборка – 300 слов).