Разделы

Цифровизация Бизнес-приложения

Intel и Cognitive подошли к созданию системы распознавания русской речи

28 ноября компании Intel и Cognitive Technologies представили результаты реализации инвестиционного проекта по развитию систем распознавания русской речи. По словам представителей компаний, разработчики Cognitive вплотную подошли к созданию промышленной системы распознавания русской речи и разработке дальнейших направлений применения систем распознавания в мобильной связи, голосовых порталах и системах голосового управления.

Год назад компания Intel выступила инвестором научно-исследовательского проекта в области речевых технологий. В результате реализации первого его этапа впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.

Сложность создания такого корпуса объясняется, в первую очередь, сложностью грамматики и фонетики русского языка, а его масштабность может конкурировать с лучшими мировыми речевыми корпусами, созданными для распознавания речи. По заявлению представителей Cognitive, RuSpeech является речевой базой данных, с которой компьютер сможет «сверять» естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в корпусе слов.

Тексты для речевого корпуса создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гб, размещаемых на 30 c лишним компакт-дисках. Каждое из более 50.000 произнесенных предложений имеет фонетическую разметку (транскрипцию). Текстовый материал брался из российских газет, в частности, из «Известий», «АиФ», «МК», а также из онлайновых новостных порталов, причем тематика его разнообразна – политика, экономика, культура, искусство, медицина, спорт.

Объем нового речевого корпуса в несколько раз превышает популярные речевые базы английского языка WSJ Speech и TIMIT. Фактически это означает, что впервые появился инструмент для создания дикторонезависимой системы распознавания русской речи. Интеграция созданного инструментария с имеющимися передовыми технологиями анализа и распознавания речи приведут к решению этой задачи в самое ближайшее время.

Результаты этой разработки могут быть использованы для:

  • создания систем диктовки («электронная машинистка»);
  • доступа к данным по телефону;
  • сжатия данных при передаче и хранении речи;
  • полнотекстовой индексации голосом для поиска в аудио- и видеоархивах;
  • идентификации говорящего;
  • в телефонии (приоритетное направление), а именно:
    • голосовые порталы – голосовой доступ в Сеть по телефону;
    • телефонный доступ к электронной почте, факсу, банковскому счету;
    • справочные службы (расписание, бронирование, заказ билетов);
    • секретарь-коммутатор;
    • голосовой набор номера.

Технологиями распознавания научный коллектив лаборатории искусственного интеллекта ИСА РАН, на базе которого была создана компания Cognitive Technologies, занимался еще с середины 70-х гг. в рамках исследования и создания систем искусственного интеллекта, а с 1993 г. активно вел разработки в области распознавания речи наряду с системами распознавания графических изображений. Компания сотрудничает с рядом ведущих российских университетов и академических институтов, в частности, МГУ, МФТИ, ВЦ РАН. Тем не менее, в связи с целым рядом существовавших технических проблем – необходимость обучать систему голосу конкретного пользователя, зависимость от оборудования, малый словарный запас - разработки носили скорее научный, перспективный характер и были далеки от промышленного применения, а сфера практического применения такого рода систем была не вполне ясна как в России, так и в мире в целом.

За последние годы большая часть технических проблем, в том числе, дикторозависимости и аппаратных требований, была в значительной мере снята, а мировой объем рынка таких систем только в 2001 г. оценивается компанией Datamonitor (в отчете за октябрь этого года) в $650 млн. По прогнозам компании, в ближайшие 5 лет этот рынок увеличится почти в 10 раз и составит $5,6 млрд. Другая исследовательская компания, Radicati Group, оценивает сектор рынка голосовых порталов, одну из главных областей применения систем распознавания, в 2001 году – в $194 млн., в 2006 году его объем возрастет до $5 млрд.

По оценкам департамента маркетинга компании Cognitive Technologies, объем рынка речевых технологий в России к 2006 г. может составить порядка $200 млн. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах. Такое состояние рынка, перспективность разработок в области речевых технологий, а также отсутствие систем распознавания русской речи и побудило Intel, по словам Камиля Исаева, менеджера по академической программе компании в странах восточной Европы, инвестировать средства в проект создания русскоязычных речевых систем. Объем сделанных инвестиций не назывался, было только отмечено, что обычно на университетские проекты (для группы в 5-8 человек) выделяется $10 тыс. в квартал, однако проект с Cognitive носил коммерческий характер, и цифры, соответственно, несколько отличались.

Права интеллектуальной собственности на RuSpeech принадлежат компании Intel, и, как отметил г-н Исаев, «логично было бы сделать базу данных доступной для русских разработчиков». Решение о том, кто же будет дальше продолжать работы по проекту – создавать сам «движок» системы распознавания русской речи – пока не принято. Cognitive обещает выпустить на рынок первые речевые навигаторы для осуществления голосового набора по телефону (к примеру, для набора добавочного номера через коммутатор) уже в течение ближайших месяцев.


Корпорация Intel является крупнейшим в мире производителем микропроцессоров, а также одним из ведущих производителей оборудования для персональных компьютеров, компьютерных сетей и средств связи.

Cognitive Technologies Ltd. является проектным интегратором и поставщиком прикладных решений в областях Корпоративных Информационных Систем, финансовых систем, реестров и баз данных, делопроизводства, документооборота, ввода данных в информационные системы, а также технологий искусственного интеллекта, Интернет/Интранет, Business Intelligence, оптического распознавания (OCR/ICR), архивации, поиска и извлечения документов (Document Image Processing, Search & Retrieval), обработки изображений документов, потокового ввода документов и ввода стандартных форм документов. Компания была создана в 1993 году на базе лаборатории искусственного интеллекта Института Системного Анализа РАН (бывший ВНИИСИ АН СССР). В настоящий момент компания насчитывает 297 сотрудников.



37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153