z-logo
open-access-imgOpen Access
Исследование лексики текстов жанра 2.0 методами квантитативной и корпусной лингвистики (на примере текстов Истаграм)
Author(s) -
О. В. Донина
Publication year - 2020
Publication title -
vestnik voronežskogo gosudarstvennogo universiteta. lingvistika i mežkulʹturnaâ kommunikaciâ
Language(s) - Russian
Resource type - Journals
ISSN - 1680-5755
DOI - 10.17308/lic.2020.3/2928
Subject(s) - computer science
В рамках данной статьи рассмотрены возможности использования инструментария квантитативной и корпусной лингвистики для анализа текстов жанра 2.0 на примере социальной сети Инстаграм. Объем исследовательского корпуса составил 43 000 словоупотреблений. Все рассматриваемые тексты были разделены на три группы по количеству подписчиков у их авторов (100 тыс. – 400 тыс.; 500 тыс. – 900 тыс.; 1 млн – ∞). Целью исследования была апробация средств компьютерной лингвистики для анализа текстового материала жанра 2.0. Среди решаемых в рамках статьи задач стоит указать: 1) предварительную обработку данных (лемматизация, удаление стоп-слов); 2) выявление ключевых слов при помощи корпусного менеджера AntConc, 3) визуализацию данных при помощи Voyant Tools; 4) проведение кластеризации ресурсами языка R; 5) сопоставление полученных показателей по авторам и по указанным выше группам. Согласно гипотезе исследования, выделенные группы инстаграм-блогеров должны кластеризоваться по авторам в зависимости от количества подписчиков. Подтверждение гипотезы позволило бы в дальнейшем разработать автоматический классификатор инстаграм-текстов. Самыми частотными словами для всего исследовательского корпуса оказались: свой; очень; самый; большой; год. Были сопоставлены частоты использования этих слов по группам (самое существенное отклонение при этом составило 0,26 %) и по авторам внутри групп (где указанная величина варьировалась от 0,5 до 0,75 %). Множественный коэффициент корреляции также показал, что сходство частотного распределения слов выше между группами (45 %), чем между авторами внутри одной группы (варьируется от 15 до 35 %). Далее были сопоставлены топ-20 самых частотных слов каждой группы и указаны частеречные предпочтения: в первой группе половина слов представлена прилагательными, в то время как в третьей группе 45 % составляют существительные. Далее был рассчитан процент уникальной и совпадающей лексики по группам (уникальная лексика составила 74,9 %) и по авторам (уникальная лексика составила 70,6 %). На последнем этапе проверки гипотезы было решено выяснить, существуют ли уникальные для каждой группы стилевые характеристики; для чего был применен метод стилеметрии, который также не выявил зависящих от количества подписчиков групп. Подводя итоги проведенному анализу, стоит отметить, что, несмотря на то, что гипотеза исследования не подтвердилась и никаких статистически значимых отличительных особенностей групп инстаграм-аккаунтов в зависимости от количества подписчиков выявить не удалось, в рамках данной статьи был предложен комплексный инструментарий для квантитативного анализа текстов, в том числе жанра 2.0. Учитывая полученные в рамках текущей работы результаты, показавшие, что индивидуальные особенности инстаграм-блогеров являются более существенными, чем предполагаемые внутригрупповые сходства, в качестве перспектив исследования стоит указать возможность изучения индивидуальных характеристик авторов в Инстаграм и поиск возможных закономерностей, в том числе повлиявших на результаты стилеметрии.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here