z-logo
open-access-imgOpen Access
К вопросу об использовании статистических методов для поиска коллокаций и коллигаций в древнейших славянских текстах (на материале глаголических рукописей корпуса »Манускрипт«)
Author(s) -
Виктор А. Баранов
Publication year - 2019
Publication title -
slovo
Language(s) - Russian
Resource type - Journals
SCImago Journal Rank - 0.133
H-Index - 2
eISSN - 1849-1049
pISSN - 0583-6255
DOI - 10.31745/s.69.1
Subject(s) - philosophy , theology
Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаголических текстов исторического корпуса Манускрипт: славянское письменное наследие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются биграммы и триграммы, извлеченные с помощью статистической меры Mutual Information и встречающиеся одновременно в нескольких рукописях коллекции.Особое внимание обращается на n-граммы, имеющие высокие статистические значения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. Разнообразны биграммы с компонентами-леммами – предложно-падежные сочетания, именные сочетания с зависимыми притяжательными местоимениями и иные атрибутивные конструкции, глагольные конструкции с зависимыми существительными и другиe. Анализ этих групп позволил выявить как коллигации, так и коллокации. Наиболее результативным стало извлечение триграмм на основе лемм – подавляющая часть первых нескольких десятков сочетаний, имеющих максимальное значение в соответствии со статистической мерой MI, представляет собой грамматически и семантически цельные конструкции или их части.Делается вывод об эффективности использования статистических методов для извлечения коллокаций и коллигаций из корпусов, содержащих средневековые славянские рукописи. Указывается, что для комплексного решения поставленной задачи должны быть использованы различные виды n-грамм – двукомпонентные и трехкомпонентные, на основе текстовых форм и лемм, со свободным и фиксированным порядком следования компонентов. Наличие повторяющихся в различных рукописях грамматически и семантически цельных сочетаний позволяет сделать вывод о надтекстовой природе таких сочетаний.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here