Россияне научили компьютер распознавать эмоции человека по голосу

Техника
мобильная версия
, Текст: Валерия Шмырова

Сотрудники ВШЭ обучили нейросеть распознавать восемь эмоций, которые могут присутствовать в голосе говорящего и менять смысл его высказываний. Чтобы системе было легче работать со звуками голоса, их представляют в виде графики.


Разработка ВШЭ

Специалисты из Высшей школы экономики (ВШЭ) создали компьютерную систему, которая различает эмоции, звучащие в голосе говорящего человека. Сотрудники факультета информатики, математики и компьютерных наук Нижегородского филиала ВШЭ представили доклад, посвященный изобретению, на международной конференции Neuroinformatics-2017. Конференция, прошедшая в Москве в начале октября, посвящена нейросетям, адаптивному поведению и когнитивным исследованиям.

Эмоции и смысл

Авторы проекта отмечают, что распознавание устной речи и представление ее в письменном виде уже давно не представляет трудности для компьютера. Однако смысл одного и того же слова или высказывания может меняться в зависимости от того, какая эмоция присутствует в голосе говорящего, и эти оттенки смысла компьютер не улавливает.

Разработчики приводят следующий пример: допустим, на вопрос «Все в порядке?» человек отвечает «Конечно». Смысл этого «конечно» варьируется в зависимости от того, каким тоном слово было произнесено — спокойно, вызывающе, жизнерадостно и т. д. В результате, используя одно и то же слово, говорящий может дать на вопрос совершенно разные ответы.

Технология распознавания эмоций

Благодаря самообучающейся нейросети специалисты ВШЭ Анастасия Попова, Александр Рассадин и Александр Пономаренко добились от компьютерной системы распознавания восьми эмоциональных оттенков голоса — нейтрального, спокойного, счастливого, грустного, злого, испуганного, а также демонстрирующего отвращение или удивление. Используемая для этого нейросеть представляет собой сверточную сеть глубокого обучения с архитектурой VGG-16.

Чтобы легче было работать с голосом, специалисты ВШЭ используют спектрограммы

По словам разработчиков, компьютер угадывает эмоцию с точностью в среднем 70%, однако для каждой эмоции этот показатель разный. С нейтральным и спокойным тоном у компьютера возникает меньше всего проблем. При этом счастливую интонацию система склонна путать с испуганной или печальной, а удивление зачастую распознается ею как отвращение.

Чтобы со звуком было легче работать, исследователи преобразовывают его в изображения, так называемые спектрограммы. Для их анализа можно использовать методы, которые обычно используются при распознавании графики.

Нейросеть и распознавание объектов

Искусственная нейронная сеть — это программный или аппаратный комплекс, построенный по аналогии с нервной системой живого организма. Сеть состоит из искусственных нейронов — простых программ или процессоров, которые занимаются выполнением своих частных несложных задач. При этом в совокупности они способны справиться с достаточно трудными заданиями.

В сети присутствует три типа нейронов: входные, через которые поступает информация, выходные, через которые выдается решение, и расположенные между ними скрытые нейроны. Отличием нейросети от других программных и аппаратных платформ является то, что ее не программируют, а обучают. Все задачи она выполняет с учетом предыдущих попыток и ошибок, допущенных в ходе этих попыток.

Чтобы обучить нейросеть распознавать какие-либо объекты или явления, необходимо показать ей множество отличающихся друг от друга вариантов этих объектов или явлений, указывая в каждом случае, что именно она видит. Когда будет пройден определенный порог вариативности, нейросеть сама начнет соотносить поступающие образцы с нужными категориями.