К вопросу об использовании статистических методов для поиска коллокаций и коллигаций в древнейших славянских текстах (на материале глаголических рукописей корпуса »Манускрипт«) | Zendy

Victor Baranov | Zendy

Open Access

К вопросу об использовании статистических методов для поиска коллокаций и коллигаций в древнейших славянских текстах (на материале глаголических рукописей корпуса »Манускрипт«)

Author(s) -

Victor Baranov

Publication year - 2019

Publication title -

slovo

Language(s) - Russian

Resource type - Journals

SCImago Journal Rank - 0.133

H-Index - 2

eISSN - 1849-1049

pISSN - 0583-6255

DOI - 10.31745/s.69.1

Subject(s) - philosophy , theology

Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаголических текстов исторического корпуса Манускрипт: славянское письменное наследие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются биграммы и триграммы, извлеченные с помощью статистической меры Mutual Information и встречающиеся одновременно в нескольких рукописях коллекции.Особое внимание обращается на n-граммы, имеющие высокие статистические значения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. Разнообразны биграммы с компонентами-леммами – предложно-падежные сочетания, именные сочетания с зависимыми притяжательными местоимениями и иные атрибутивные конструкции, глагольные конструкции с зависимыми существительными и другиe. Анализ этих групп позволил выявить как коллигации, так и коллокации. Наиболее результативным стало извлечение триграмм на основе лемм – подавляющая часть первых нескольких десятков сочетаний, имеющих максимальное значение в соответствии со статистической мерой MI, представляет собой грамматически и семантически цельные конструкции или их части.Делается вывод об эффективности использования статистических методов для извлечения коллокаций и коллигаций из корпусов, содержащих средневековые славянские рукописи. Указывается, что для комплексного решения поставленной задачи должны быть использованы различные виды n-грамм – двукомпонентные и трехкомпонентные, на основе текстовых форм и лемм, со свободным и фиксированным порядком следования компонентов. Наличие повторяющихся в различных рукописях грамматически и семантически цельных сочетаний позволяет сделать вывод о надтекстовой природе таких сочетаний.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research