Сергей Мельников: Точность распознавания речи доходит до 90%
Что происходит на довольно закрытом рынке СРР, для кого разрабатываются технологии будущего, как происходит "конверсия" речевых решений и когда человек сможет поговорить с компьютером на равных, корреспонденту CNews рассказал советник директора компании "Стэл – компьютерные системы", руководитель управления перспективных технологий Сергей Мельников.CNews: Как развивается рынок современных речевых технологий в России? Когда можно будет говорить о его зрелости?
Сергей Мельников: Пока российский рынок систем распознавания речи и других высокотехнологичных решений в речевой области невелик. Мы пробовали его оценить. Так, по нашим данным, его объем составляет порядка 10 млн долларов в год. Но рост совершенно очевиден. Динамика составляет порядка 15-20%. Мировой рынок растет, конечно, быстрее: в прошлом году его объем составил примерно 3 млрд долларов, а темпы роста приблизились к 25%.
CNews: Что вы можете сказать о структуре рынка СРР в России?
Сергей Мельников: Практически все предлагаемые на рынке технологии имеют двойное назначение. То есть задачи, которые решаются в речевой области, имеют "открытое" применение - рыночное, и "закрытое" - для тех или иных силовых ведомств.
Это особенность не только российского, но и мирового рынка. Так, например, значительная доля научных исследований по речевой тематике в США финансируется Министерством обороны.
Чтобы упорядочить и как-то улучшить взаимодействие между основными игроками на отечественном рынке несколько лет назад был создан консорциум "Российские речевые технологии". К сожалению, в таком виде, как сейчас, он уже не может решать задачи, стоящие перед сообществом разработчиков речевых технологий. В ближайшее время мы планируем провести мероприятия по реорганизации консорциума. Грамотная работа этой организации поможет консолидировать, упорядочить разработки и избежать ненужного параллелизма, когда разные компании занимаются дублирующими разработками для различных ведомств. Кроме того, реорганизованный консорциум "Российские речевые технологии" поможет более четко и прозрачно распределять государственные средства, выделяемые на разработки в области речевых технологий.
CNews: Какие задачи в области СРР сейчас наиболее востребованы?
Сергей Мельников: Как правило, все задачи СРР делят на два направления – анализ и синтез речи. Если задачи синтеза в той или иной степени можно считать почти решенными, то аналитическое направление имеет очень широкое поле для дальнейшего развития. К аналитическим задачам относят проблемы идентификации, шумоочистки, распознавания языков, оценки психофизического состояния человека. Но самая главная задача СРР – распознавание слитной речи.
Сергей Мельников: Во многих сферах бизнеса конкурентов у нас просто нет
Очень важной и интересной по-прежнему остается задача идентификации дикторов. И здесь можно говорить о двояком использовании этой технологии. К примеру, наш комплекс "Голос" позволяет автоматически идентифицировать дикторов как в открытом потоке сообщений, так и по записям. Это нужно силовым ведомствам для поиска сообщений террористов или других потенциально опасных лиц. Гражданское применение это технология находит в системах контроля доступа в помещение, компьютерную сеть и так далее.
В области речевых технологий существует и противоположная задача: когда голос диктора нужно не распознать, а наоборот - исказить таким образом, чтобы максимально затруднить идентификацию. С этой целью компания "Стэл" разработала продукт "Голос-аноним", который в перспективе может использоваться в судах для защиты свидетелей. То есть эта разработка предназначена исключительно для ведомственных структур. Мы планируем выпускать его как аппаратное решение. Мировых аналогов этого продукта множество, но большая их часть - обычные "игрушки", говорить о высоком качестве в этом случае не приходится. Определить, изменен ли голос, достаточно просто даже на слух. Нашей задачей было не только полное изменение голоса диктора, но и придание ему максимально естественного звучания. И эту задачу мы решили.
Задача оценки психофизиологического состояния говорящего равно интересна как для гражданских, так и для военных структур. С помощью этой технологии можно выявить потенциально опасного человека. Она также позволяет осуществлять дистанционный контроль, например, за состоянием водителя на транспортных линиях.
Очень важной для открытого рынка можно назвать задачу улучшения и измерения качества голоса. Здесь у нашей компании тоже есть решение "Голос-качество". Мы все имеем дело с IP-телефонией, качество передаваемого голоса там, безусловно, плавает, и не только от звонка к звонку, но даже в пределах одной сессии. Сейчас качество измеряется, по сути, на слух, мы же можем определить качество переданной информации на уровне формант и фонем в голосе, что позволит отделить оценку качества каналов связи от человеческого фактора. Таким образом, оценка качества голоса приобретет большую объективность, что позволит операторам работать эффективнее.