
METHOD OF AUTOMATIC CLASSIFICATION OF THE SPEAKER'S EMOTIONAL STATE BY VOICE
Author(s) -
К. Т. Кошеков,
V. Yu. Kobenko,
Raziyam K. Anayatova,
Alexey Savostin,
A. K. Koshekov
Publication year - 2020
Publication title -
dinamika sistem, mehanizmov i mašin
Language(s) - Russian
Resource type - Journals
ISSN - 2310-9793
DOI - 10.25206/2310-9793-8-4-51-59
Subject(s) - speech recognition , state (computer science) , speaker recognition , computer science , s voice , linguistics , natural language processing , communication , psychology , algorithm , philosophy , operating system
В данной статье рассматривается проблема разработки эффективного метода автоматической классификации эмоций авиационного персонала (диктора) по голосу. Для этого решается задача по созданию дикторонезависимого алгоритма, способного выполнять многоклассовую классификацию семи эмоциональных состояний человека (радость, страх, гнев, печаль, отвращение, удивление и нейтральное состояние) на основании набора из 48 информативных признаков. Данные признаки формируются из цифровой записи речевого сигнала путем расчета мел-частотных кепстральных коэффициентов и частоты основного тона для отдельных фреймов звукозаписи. Повышение информативности и снижение размерности для мел-частотных кепстральных коэффициентов выполняется за счет их обработки при помощи глубокой сверточной нейронной сети. Модель классификатора реализована при помощи логистической регрессии, которая обучалась по указанным информативным признакам на базе записей эмоционально окрашенных образцов английской речи. В результате обучения на тестовой выборке доля правильных ответов распознавания составляет accuracy = 0,96. Предложенное в работе решение может быть использовано для улучшения человеко-машинных интерфейсов, а также в области авиационных перевозок, медицине, маркетинге и пр.