Разделы

Цифровизация Бизнес-приложения

Intel и Cognitive создали обширный инструментарий для разработки систем распознавания речи

Год назад компания Intel выступила инвестором научно-исследовательского проекта в области речевых технологий. В результате реализации первого его этапа впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.

Сложность создания такого корпуса объясняется, в первую очередь, сложностью грамматики и фонетики русского языка, а его масштабность может конкурировать с лучшими мировыми речевыми корпусами, созданными для распознавания речи. По заявлению представителей Cognitive, RuSpeech является речевой базой данных, с которой компьютер сможет "сверять" естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в корпусе слов.

Тексты для речевого корпуса создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гб, размещаемых на 30 c лишним компакт-дисках. Каждое из более 50.000 произнесенных предложений имеет фонетическую разметку (транскрипцию). Текстовый материал брался из российских газет, в частности, из "Известий", "АиФ", "МК", а также из онлайновых новостных порталов, причем тематика его разнообразна - политика, экономика, культура, искусство, медицина, спорт.

Результаты этой разработки могут быть использованы для:

  • создания систем диктовки ("электронная машинистка");
  • доступа к данным по телефону;
  • сжатия данных при передаче и хранении речи;
  • полнотекстовой индексации голосом для поиска в аудио- и видеоархивах;
  • идентификации говорящего;
  • в телефонии (приоритетное направление), а именно голосовые порталы, телефонный доступ к электронной почте, факсу, банковскому счету, справочные службы, секретарь-коммутатор, голосовой набор номера.

По оценкам департамента маркетинга компании Cognitive Technologies, объем рынка речевых технологий в России к 2006 г. может составить порядка $200 млн. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах.


Подробнее об этом читайте в разделе "Главные новости дня" .. >>


Корпорация Intel является крупнейшим в мире производителем микропроцессоров, а также одним из ведущих производителей оборудования для персональных компьютеров, компьютерных сетей и средств связи.

Cognitive Technologies Ltd. является проектным интегратором и поставщиком прикладных решений в областях Корпоративных Информационных Систем, финансовых систем, реестров и баз данных, делопроизводства, документооборота, ввода данных в информационные системы, а также технологий искусственного интеллекта, Интернет/Интранет, Business Intelligence, оптического распознавания (OCR/ICR), архивации, поиска и извлечения документов (Document Image Processing, Search & Retrieval), обработки изображений документов, потокового ввода документов и ввода стандартных форм документов. Компания была создана в 1993 году на базе лаборатории искусственного интеллекта Института Системного Анализа РАН (бывший ВНИИСИ АН СССР). В настоящий момент компания насчитывает 297 сотрудников.

Дмитрий Балдин, «РусГидро»: Вынужденный переход на open source приводит к увеличению поверхности кибератак
безопасность