z-logo
open-access-imgOpen Access
PaRuS — syntax annotated Russian corpus
Author(s) -
Natalia Vlasova,
Igor Trofimov,
Yury Serdyuk,
Елена Анатольевна Сулейманова,
Илья Николаевич Воздвиженский
Publication year - 2019
Publication title -
programmnye sistemy: teoriâ i priloženiâ
Language(s) - Russian
Resource type - Journals
ISSN - 2079-3316
DOI - 10.25209/2079-3316-2019-10-4-181-199
Subject(s) - parus , syntax , linguistics , biology , zoology , philosophy
В статье представлен новый аннотированный корпус русского языка PaRuS (Parsed Russian Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и предназначен для решения задач компьютерной лингвистики методами машинного обучения. PaRuS состоит из предложений русского литературного языка. Каждое предложение снабжено лингвистической разметкой: морфологической в формате MULTEXT-East и синтаксической в нотации СинТагРус . В статье рассмотрена методология создания корпуса, описан гибридный лингвистический конвейер PaRuS_pipe , разработанный для порождения разметки. Обсуждаются вопросы качества аннотирования языкового материала в корпусе PaRuS , выполнена оценка морфологического анализатора конвейера PaRuS_pipe по методологии соревнования MorphoRuEval-2017.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here