ПО Бизнес

16 Сентября 2016 10:10 16 Сен 2016 10:10 |

Microsoft добилась наилучшего в истории ИТ распознавания речи компьютером

Компьютер Microsoft стал рекордсменом по распознаванию человеческой речи с долей неправильно идентифицированных слов всего в 6,3% случаев. Успех принесло использование нейронных сетей и нового инструментария к ним, а также нешаблонный подход к возможностям графических процессоров.

Microsoft установила рекорд в распознавании человеческой речи

Microsoft добилась лучшего в ИТ-отрасли распознавания человеческой речи компьютером. Об этом компания сообщает в своем официальном блоге. Долю неправильно идентифицированных слов удалось сократить до 6,3%. Это на 0,3% меньше, чем рекорд компании IBM, о котором она сообщила на конференции Interspeech в Сан-Франциско на прошлой неделе. Microsoft отмечает, что путь к этому достижению был долгим — 20 лет назад количество неправильно распознанных компьютером слов составляло более 43%.

По словам Сюэдона Хуана (Xuedong Huang), главного специалиста по данной теме в Microsoft, оценка результатов проводилась согласно Плану оценки распознавания речи, разработанному Национальным институтом стандартов и технологий США в 2000 г. Показатель Microsoft может считаться рекордным для систем распознавания, не основанных на системных комбинациях.

Технические основы распознавания речи в Microsoft

И Microsoft, и IBM смогли так далеко продвинуться в этой сфере благодаря использованию глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются ключевой технологией в разработке не только распознавания речи, но и компьютерного зрения. Такая сеть состоит из нескольких слоев. Разработчики Microsoft недавно изобрели новый тип связи между разными слоями нейронной сети, что позволило им выиграть конкурс компьютерного зрения ImageNet в 2016 г.

Microsoft поставила рекорд по компьютерному распознаванию речи

По словам Джеффри Цвейга (Geoffrey Zweig), руководителя исследовательской группы Speech & Dialog в Microsoft, еще одним критически важным компонентом исследования оказался нейросетевой инструментарий CNTK, который позволяет запускать глубинные обучающие алгоритмы. Шагом вперед также стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но в последние годы выяснилось, что они хорошо подходят для обработки сложных алгоритмов вроде того, который нужен для распознавания речи.

Сатья Наделла (Satya Nadella), генеральный исполнительный директор Microsoft, считает, что рекорд в распознавании речи — это шаг вперед в реализации новой стратегии компании «Общение как основа» (CaaP). Основная задача стратегии — добиться как можно более полного и непосредственного взаимодействия человека и компьютера, что невозможно без устного общения.

«Диасофт» автоматизирует учет ЦФА для финансовых организаций: решение уже работает в 10 банках

ИТ в банках

Виртуальный помощник Cortana

Распознаванием речи в Microsoft занимается виртуальный помощник с элементами искусственного интеллекта Cortana, который был представлен в ОС Windows 10, Windows 10 Mobile и Windows Phone 8.1. Работа Cortana как раз и основана на комбинации технологий CNTK и GPU. На сегодняшний день помощник владеет английским, французским, немецким, итальянским, испанским, китайским и японским языками. Cortana конкурирует с виртуальными помощниками других брендов — Siri компании Apple и Google Now компании Google.

Как сопровождать СУБД на множестве серверов баз данных

Валерия Шмырова

Подписаться на новости

Короткая ссылка

Microsoft добилась наилучшего в истории ИТ распознавания речи компьютером

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

VDI

Kubernetes

СЭД

ИТ-безопасность

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Космические «замочные скважины» — отсроченная катастрофа, через них астероиды могут вернуться на Землю

Российским ритейлерам
стоило бы поучиться у коллег из Китая

Первая карта заводов компьютерной техники в России

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Microsoft добилась наилучшего в истории ИТ распознавания речи компьютером

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

VDI

Kubernetes

СЭД

ИТ-безопасность

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Космические «замочные скважины» — отсроченная катастрофа, через них астероиды могут вернуться на Землю

Российским ритейлерамстоило бы поучиться у коллег из Китая

Первая карта заводов компьютерной техники в России

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

Российским ритейлерамстоило бы поучиться у коллег из Китая

С новым кодом: как будет работать универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты