Разделы

Цифровизация Бизнес-приложения

Intel и Cognitive создали обширный инструментарий для разработки систем распознавания речи

Год назад компания Intel выступила инвестором научно-исследовательского проекта в области речевых технологий. В результате реализации первого его этапа впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.

Сложность создания такого корпуса объясняется, в первую очередь, сложностью грамматики и фонетики русского языка, а его масштабность может конкурировать с лучшими мировыми речевыми корпусами, созданными для распознавания речи. По заявлению представителей Cognitive, RuSpeech является речевой базой данных, с которой компьютер сможет "сверять" естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в корпусе слов.

Тексты для речевого корпуса создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гб, размещаемых на 30 c лишним компакт-дисках. Каждое из более 50.000 произнесенных предложений имеет фонетическую разметку (транскрипцию). Текстовый материал брался из российских газет, в частности, из "Известий", "АиФ", "МК", а также из онлайновых новостных порталов, причем тематика его разнообразна - политика, экономика, культура, искусство, медицина, спорт.

Результаты этой разработки могут быть использованы для:

  • создания систем диктовки ("электронная машинистка");
  • доступа к данным по телефону;
  • сжатия данных при передаче и хранении речи;
  • полнотекстовой индексации голосом для поиска в аудио- и видеоархивах;
  • идентификации говорящего;
  • в телефонии (приоритетное направление), а именно голосовые порталы, телефонный доступ к электронной почте, факсу, банковскому счету, справочные службы, секретарь-коммутатор, голосовой набор номера.

По оценкам департамента маркетинга компании Cognitive Technologies, объем рынка речевых технологий в России к 2006 г. может составить порядка $200 млн. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах.


Подробнее об этом читайте в разделе "Главные новости дня" .. >>


Корпорация Intel является крупнейшим в мире производителем микропроцессоров, а также одним из ведущих производителей оборудования для персональных компьютеров, компьютерных сетей и средств связи.

Cognitive Technologies Ltd. является проектным интегратором и поставщиком прикладных решений в областях Корпоративных Информационных Систем, финансовых систем, реестров и баз данных, делопроизводства, документооборота, ввода данных в информационные системы, а также технологий искусственного интеллекта, Интернет/Интранет, Business Intelligence, оптического распознавания (OCR/ICR), архивации, поиска и извлечения документов (Document Image Processing, Search & Retrieval), обработки изображений документов, потокового ввода документов и ввода стандартных форм документов. Компания была создана в 1993 году на базе лаборатории искусственного интеллекта Института Системного Анализа РАН (бывший ВНИИСИ АН СССР). В настоящий момент компания насчитывает 297 сотрудников.

VPN под ударом. Рынок VDI ждет бурный рост?
VPN под ударом. Рынок VDI ждет бурный рост? безопасность



Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797