Методы машинного обучения в социологическом исследовании: предсказание частичного неответа с использованием наивного байесовского классификатора | Zendy

Марина Юрьевна Александрова | Zendy

Open Access

Методы машинного обучения в социологическом исследовании: предсказание частичного неответа с использованием наивного байесовского классификатора

Author(s) -

Марина Юрьевна Александрова

Publication year - 2021

Publication title -

monitoring obŝestvennogo mneniâ: èkonomičeskie i socialʹnye peremeny

Language(s) - Russian

Resource type - Journals

eISSN - 2219-5467

pISSN - 1815-8617

DOI - 10.14515/monitoring.2021.1.1756

Subject(s) - naive bayes classifier , european social survey , psychology , artificial intelligence , computer science , political science , support vector machine , politics , law

Пропущенные данные в социологических исследованиях могут быть связаны с различными причинами, и в данной статье рассматриваются те из них, что появляются в результате незнания, нежелания или затруднения с поиском ответа на отдельные вопросы анкеты у респондента, — частичные неответы (item nonresponse). Остро стоит вопрос о предсказании частичных неответов, решение которого позволило бы сократить вероятность появления пропусков в собираемых данных.В статье показано, как возникновение частичного неответа можно прогнозировать с помощью современных методов текст-майнинга и машинного обучения на примере данных Европейского социального исследования (European Social Survey) по Великобритании. Для решения поставленной задачи использовался метод наивного байесовского классификатора (Naive Bayes Classifier) — популярный метод предсказания класса зависимой переменной на основе текстовых данных. С опорой на научную литературу показываем, как работает этот метод. Мы подготовили базу данных, объединяющую полные формулировки вопросов, ответов, инструкций и результатов опросов исследования European Social Survey по Великобритании. Нами показано, как отдельные модели для предсказания появления частичных неответов были обучены с помощью метода наивного байесовского классификатора на основе частот слов и метрики важности слов TF-IDF, процессу расчета которых мы также приводим подробное описание. Каждая из моделей предсказания частичного неответа оценивалась нами с точки зрения частоты возникновения ошибок при получении прогнозов с их помощью. Мы получили списки слов, наличие в вопросах которых статистически чаще сопровождается или не сопровождается частичными неответами. Наши результаты показали, что респонденты менее охотно отвечают на сенситивные вопросы, а некоторые слова, имеющие отношение к процедуре получения ответа на вопрос, статистически чаще пропускаются респондентами.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.

Having issues? You can contact us here

Accelerating Research