Нейросеть «Алиса» в «Яндекс Браузере» научилась описывать изображения для незрячих и слабовидящих пользователей
Нейросеть «Алиса» в «Яндекс Браузере» теперь умеет понимать, что изображено на картинках в интернете, и создавать их описания. Благодаря этому незрячие и слабовидящие пользователи смогут воспринимать визуальный контент: иллюстрации в статьях, фотографии товаров в интернет-магазинах или изображения в соцсетях. Об этом CNews сообщили представители «Яндекса».
«Алиса» сообщает, что нарисовано на картинке, а по желанию пользователя — приводит подробности. Например, она может изучить фотографию платья в интернет-магазине и описать его цвет, крой и посадку.
В основе новой функции лежит нейросетевая мультимодальная модель, которая способна анализировать и тексты, и картинки. Она не просто распознает отдельные объекты, а воспринимает изображение целиком: понимает взаимосвязь между элементами, учитывает их контекст и смысл. Это позволяет генерировать лаконичные и осмысленные описания, которые дают незрячим пользователям достоверное представление о содержании картинок.
Чтобы получить описание, нужно выбрать опцию «Описать картинку» в контекстном меню или на панели поверх картинки — либо навести на изображение фокус программы экранного доступа. В «Яндекс Браузере» для Windows, iOS и Android «Алиса» готова не только составить, но и озвучить описание.

Управлять функцией можно в настройках «Браузера», в разделе «Специальные возможности». Если включена программа экранного доступа, «Алиса» создаст описания только для тех картинок, на которые пользователь может нацелить фокус. Поэтому при разработке сайтов важно придерживаться принципов доступности — тогда интернет будет удобен всем, включая незрячих и слабовидящих пользователей.
В «Яндекс Браузере» есть и другие инструменты для людей с особенностями зрения. Например, режим чтения убирает лишнее с экрана, помогая сконцентрироваться на тексте. Темная тема и масштабирование интерфейса создают комфорт для глаз и помогают разобрать мелкий шрифт. В мобильный «Браузер» встроена «Умная камера» — с ее помощью незрячие и слабовидящие пользователи могут распознавать печатные тексты и предметы.