
Corpora with Special Markup for Studying Concept Statistics
Author(s) -
Jinfeng Lin,
D. M. Semyonova,
S. L. Pushchin,
Т. Г. Петров,
M. N. Babariko,
С. Чебанов
Publication year - 2020
Publication title -
kritika i semiotika
Language(s) - Russian
Resource type - Journals
SCImago Journal Rank - 0.1
H-Index - 1
eISSN - 2307-1753
pISSN - 2307-1737
DOI - 10.25205/2307-1737-2020-2-87-113
Subject(s) - markup language , computer science , data science , information retrieval , natural language processing , statistics , world wide web , mathematics , xml
Изучение статистики концептов предполагает работу с размеченными корпусами. В принципе, такая разметка может быть только ручной на основе экспертных оценок с привлечением нескольких экспертов. Однако в ряде случаев такая возможность исключена, и разметка делается одним разметчиком – автором исследования. Экспликация принципов разметки и воспроизводимые количественные закономерности (покрытие 80 % использования концептов 7 ± 2 из них), полученные на материале русского, китайского, французского, английского языков семью разметчиками (6 русскими и 1 китаянкой, 6 девушками и 1 юношей), дают основание считать такую разметку удовлетворительной.