Китайское ТВ запустило сурдопереводчиков на основе нейросетей. Глухие зрители их не понимают
Слабослышащие китайцы не понимают, что до них пытаются донести созданные генеративным ИИ виртуальные сурдопереводчики. Подобные технологии уже около трех лет используются на телевидении в Поднебесной, но качество их реализации оставляет желать лучшего. Всему виной стремление побыстрее выпустить готовый продукт, отсутствие у разработчиков знаний в соответствующей предметной области, нежелание привлекать специалистов или представителей слабослышащей публики и глухота к обратной связи.Идея хорошая, исполнение хромает
В последние годы власти Китая всячески поощряют внедрение технологий искусственного интеллекта в сфере медиа в помощь слабослышащим людям, каковых на территории Поднебесной проживает более 20 млн, пишет The Register.
Согласно выводам, описанным в статье профессора образовательного факультета Пекинского педагогического университета Чжэн Сюань (Zheng Xuan) для издания Sixth Tone, успехи на этом направлении пока совершенно не впечатляют – так называемые аватары-сурдопереводчики на основе генеративного ИИ со своей функцией справляются откровенно плохо.
Первые попытки применения подобных технологий были предприняты еще в 2022 г., в период проведения Зимних Олимпийских игр, проходивших в Пекине. Чжень Суюань вместе с коллегами изучила видеоматериалы с соревнований, в которые телевизионщики внедрили виртуального сурдопереводчика и оказалась разочарована качеством их работы.
«Мы записывали последовательность жестов, воспроизведенную аватарами, переводили [c китайского жестового языка на обычный китайский] а затем сравнивали результаты с исходной аудиозаписью и в результате обнаружили, что значительная часть ключевой информации [в процессе сурдоперевода] была утеряна или искажена в версии, созданной ИИ», – отмечает профессор.
Таким образом, зрителям мероприятия с нарушением слуха на практике было сложно или почти невозможно считать сообщение, которое до них пытались донести виртуальные сурдопереводчики.
«При более пристальном рассмотрении движения аватаров значительно отличались от привычных для владеющих языком жестов с точки зрения формы рук, положения, направления и движения», — объясняет Чжэн Сюань. – Другие проблемы были еще более заметными – мимика и язык тела аватаров, как и движения их губ были искажены».
Опрошенные учеными телезрители, страдающие расстройством слуха, рассказывали, что, как правило, в такой ситуации оказывались неспособными расшифровать движения аватаров, а также отмечали скудный словарный запас и трудности с употреблением многозначных слов, свойственные ИИ-аватарам.
Полнейшее невежество
По мнению Чжэн, разработчики, создавшие модель, которая генерирует видеоряд с виртуальным сурдопереводчиком, не понимали принципиальной разницы между устной речью и языком жестов. Многие воспринимают последний как некое дополнение или ошибочно предполагают, что перевод с жестовых языков осуществляется примерно так же, как с одного вербального на другой.
«Но модальности в устной речи и языке жестов совершенно разные, – поясняет Чжэн. Первое –устно-слуховой язык, а второе – визуально-жестикулярный или визуально-пространственный. Термин “жест” – сравнительно широкое понятие, включающее не только движения рук, но и мимику, а также язык тела. Задействование всего тела позволяет носителям языка жестов выражать смысл целого предложения – например, "человек входит в комнату" – всего одним движением».
Проблему для разработчиков виртуальных сурдопереводчиков представляет и применение в Китае сразу нескольких жестовых языков: естественного, который используется в быту, и специального, с помощью которого описываются китайские иероглифы. Причем, по словам Чжэн, на практике большинство слабослышащих китайцев, как правило, комбинируют их в зависимости от ситуации. Кроме того, для корректного сурдоперевода разработчикам алгоритмов ИИ необходимо принимать во внимание факт наличия ряда диалектов жестового языка.
Разработчикам все равно
Профессор также раскритиковала китайские технологические компании, ответственные за разработку технологий сурдоперевода. По ее словам, к работе над генеративным ИИ такого рода крайне редко привлекаются сурдолингвисты и просто слабослышащие люди, а когда привлекаются – выражаемая ими точка зрения для разработчиков не становится объективным критерием качества и эффективности работы конечного продукта. Такое мнение у Чжэн Сюань сформировалось в том числе и на основе собственного опыта: женщине доводилось консультировать команду разработчиков одного из аватаров-переводчиков, участники которой оказались плохо подготовлены к решению этой задачи.

«Похоже, они недооценили сложность задачи, переоценили возможности технологий в решении проблем и не обладали необходимым опытом, ресурсами и способностью объективно оценивать качество работы сторонних компаний, – сетует профессор. – К тому времени, как я присоединилась к проекту, эти недостатки уже были очевидны. Хотя команда разработчиков приветствовала мое участие, я чувствовала, что это уважение было вызвано скорее моими техническими знаниями как университетского профессора, нежели человека с расстройством слуха».
Чжэн пыталась объяснить разработчикам, что получившихся у них продукт не способен удовлетворить потребности конечных пользователей, однако, ее замечания в значительной степени проигнорированы.
Чжэн видит фундаментальный изъян в подходе, используемом технологическими компаниями, работающими над генеративным ИИ в общем и моделями для сурдоперевода: сперва выпускается версия продукта к огромным количеством ошибок и лишь затем разработчики начинают работать над его оптимизацией за счет обратной связи с пользователями.

Со слов профессора, продукты такого типа, с которыми ей приходилось взаимодействовать, отличались ужасным качеством и выполняли свою функцию настолько плохо, что у нее возникли опасения по поводу возможной утраты веры сообщества слабослышащих людей в технологии.
Оптимизма не добавляет и тот факт, что некоторые компании – разработчики аватаров целенаправленно вводят пользователей в заблуждение, при продвижении своего продукта используя реальных людей – сурдопереводчиков, которых выдают за сгенерированные ИИ образы.