Разделы

Безопасность Бизнес Цифровизация Инфраструктура Бизнес-приложения

Сергей Мельников: Точность распознавания речи доходит до 90%

Что происходит на довольно закрытом рынке СРР, для кого разрабатываются технологии будущего, как происходит "конверсия" речевых решений и когда человек сможет поговорить с компьютером на равных, корреспонденту CNews рассказал советник директора компании "Стэл – компьютерные системы", руководитель управления перспективных технологий Сергей Мельников.

CNews: Как развивается рынок современных речевых технологий в России? Когда можно будет говорить о его зрелости?

Сергей Мельников: Пока российский рынок систем распознавания речи и других высокотехнологичных решений в речевой области невелик. Мы пробовали его оценить. Так, по нашим данным, его объем составляет порядка 10 млн долларов в год. Но рост совершенно очевиден. Динамика составляет порядка 15-20%. Мировой рынок растет, конечно, быстрее: в прошлом году его объем составил примерно 3 млрд долларов, а темпы роста приблизились к 25%.

CNews: Что вы можете сказать о структуре рынка СРР в России?

Сергей Мельников: Практически все предлагаемые на рынке технологии имеют двойное назначение. То есть задачи, которые решаются в речевой области, имеют "открытое" применение - рыночное, и "закрытое" - для тех или иных силовых ведомств.

Это особенность не только российского, но и мирового рынка. Так, например, значительная доля научных исследований по речевой тематике в США финансируется Министерством обороны.

Чтобы упорядочить и как-то улучшить взаимодействие между основными игроками на отечественном рынке несколько лет назад был создан консорциум "Российские речевые технологии". К сожалению, в таком виде, как сейчас, он уже не может решать задачи, стоящие перед сообществом разработчиков речевых технологий. В ближайшее время мы планируем провести мероприятия по реорганизации консорциума. Грамотная работа этой организации поможет консолидировать, упорядочить разработки и избежать ненужного параллелизма, когда разные компании занимаются дублирующими разработками для различных ведомств. Кроме того, реорганизованный консорциум "Российские речевые технологии" поможет более четко и прозрачно распределять государственные средства, выделяемые на разработки в области речевых технологий.

CNews: Какие задачи в области СРР сейчас наиболее востребованы?

Сергей Мельников: Как правило, все задачи СРР делят на два направления – анализ и синтез речи. Если задачи синтеза в той или иной степени можно считать почти решенными, то аналитическое направление имеет очень широкое поле для дальнейшего развития. К аналитическим задачам относят проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. Но самая главная задача СРР – распознавание слитной речи.

Сергей Мельников
Сергей Мельников: Во многих сферах бизнеса конкурентов у нас просто нет

Так, например, задача шумоочистки – одна из известнейших, классических задач. Наилучшие результаты, по нашему мнению, здесь у "Центра речевых технологий" из Санкт-Петербурга. Именно их специалисты занимались восстановлением записей действий экипажа с затонувшей подлодки "Курск". В области шумоочистки много работ, связанных именно с военной тематикой. В танке, в самолете речь всегда сопровождается большими шумами - имеющиеся решения позволяют очистить от них речь и сделать ее более понятной. Дмитрий Беляев: Современные SOAR-решения автоматизируют до 70–90% рутинных шагов
Дмитрий Беляев: Современные SOAR-решения автоматизируют до 70–90% рутинных шагов безопасность

Очень важной и интересной по-прежнему остается задача идентификации дикторов. И здесь можно говорить о двояком использовании этой технологии. К примеру, наш комплекс "Голос" позволяет автоматически идентифицировать дикторов как в открытом потоке сообщений, так и по записям. Это нужно силовым ведомствам для поиска сообщений террористов или других потенциально опасных лиц. Гражданское применение это технология находит в системах контроля доступа в помещение, компьютерную сеть и так далее.

В области речевых технологий существует и противоположная задача: когда голос диктора нужно не распознать, а наоборот - исказить таким образом, чтобы максимально затруднить идентификацию. С этой целью компания "Стэл" разработала продукт "Голос-аноним", который в перспективе может использоваться в судах для защиты свидетелей. То есть эта разработка предназначена исключительно для ведомственных структур. Мы планируем выпускать его как аппаратное решение. Мировых аналогов этого продукта множество, но большая их часть - обычные "игрушки", говорить о высоком качестве в этом случае не приходится. Определить, изменен ли голос, достаточно просто даже на слух. Нашей задачей было не только полное изменение голоса диктора, но и придание ему максимально естественного звучания. И эту задачу мы решили.

Задача оценки психофизиологического состояния говорящего равно интересна как для гражданских, так и для военных структур. С помощью этой технологии можно выявить потенциально опасного человека. Она также позволяет осуществлять дистанционный контроль, например, за состоянием водителя на транспортных линиях.

Очень важной для открытого рынка можно назвать задачу улучшения и измерения качества голоса. Здесь у нашей компании тоже есть решение "Голос-качество". Мы все имеем дело с IP-телефонией, качество передаваемого голоса там, безусловно, плавает, и не только от звонка к звонку, но даже в пределах одной сессии. Сейчас качество измеряется, по сути, на слух, мы же можем определить качество переданной информации на уровне формант и фонем в голосе, что позволит отделить оценку качества каналов связи от человеческого фактора. Таким образом, оценка качества голоса приобретет большую объективность, что позволит операторам работать эффективнее.

До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях» До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях»

erid: 2W5zFHXcZPo

Рекламодатель: ООО «ФЛАТ-ПРО»

ИНН/ОГРН: 9714013259/1237700428240

Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797