Цифровизация Искусственный интеллект

09 Октября 2025 13:11 09 Окт 2025 13:11 |

MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом

MWS AI (входит в МТС Web Services) представила свою первую мультимодальную модель – Cotype VL, способную одновременно анализировать и интерпретировать изображения и текст. Модель поставляется как в виде отдельного продукта, так и в составе ИИ-помощников MWS AI для широкого круга сценариев: от поиска по документам, содержащим визуальную информацию, до клиентской поддержки пользователей по скриншотам и подготовки отчетов на основе графических данных. Об этом CNews сообщили представители MWS AI.

Cotype VL содержит 32 млрд параметров и распознает изображения с печатным, рукописным и смешанным текстом, учитывает визуальный контекст при переводе с одного языка на другой. Модель также умеет создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию, требующие рассуждений, сравнений и выводов.

Cotype VL поддерживает русский, английский, китайский и другие языки. Cotype VL можно развернуть в закрытом контуре компании и в случае необходимости дообучить совместно с MWS AI на данных заказчика.

«Секретная сессия»: как выглядит продвинутая экосистема кибербеза

Безопасность

«Мультимодальные модели — ключевой элемент для создания ИИ-помощников нового поколения, способных наряду с текстом понимать сложную визуальную информацию, давать более точные ответы с учетом всех входных данных от пользователя и автономно взаимодействовать с интерфейсами различных корпоративных систем и приложений. Наша новая модель умеет работать со схемами, чертежами, техническими иллюстрациями, картами и другими визуальными данными, благодаря чему будет востребована в ИИ-решениях, ориентированных на проектные и инженерные службы, юридические, финансовые и кадровые департаменты, а также на маркетинг, где предполагается работы с разными форматами контента», — отметил генеральный директор MWS AI Денис Филиппов.

Для обучения Cotype VL команда собрала набор данных на русском языке из различных доменов, включая финансы, промышленность, ИT, телеком и здравоохранение. Это более 150 тыс. документов с визуальными данными, сканы и скриншоты: контракты, письма, договоры, диаграммы, таблицы и схемы с картами и чертежами, где важны структура и расположение элементов. Также в обучающий датасет вошли рукописные конспекты и тетради, документы с рукописным и печатным текстом вроде справок и открыток, печатные чеки, билеты, грамоты и медицинские анализы. Кроме того, модель была обучена на скриншотах интерфейсов бизнес-приложений, инженерного ПО, приложений экосистемы МТС и игр. MWS AI разработала инструмент для генерации синтетических данных на основе реальных примеров. Все текстовые и визуальные данные, полученные из открытых источников, были очищены от персональной информации.

Подобрать оптимальный виртуальный сервер VPS/VDS на ИТ-маркетплейсе CNewsMarket

Подписаться на новости

Короткая ссылка

MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом

Другие материалы рубрики

Конференции

Low-code и no-code

Цифровая инфраструктура будущего

CNews FORUM 2025: Информационные технологии завтра

CNewsMarket

IP-телефония

Dedicated

VPS

Kubernetes

Техника

Как создать простые и анимированные стикеры в Telegram: простая инструкция

Темная сторона онлайн-знакомств: чем опасны дейтинг-сервисы

Лучшие умные увлажнители для отопительного сезона 2025: хиты продаж

Наука

Идеальных мест для жизни в нашей Галактике больше, чем считалось — все дело в миграции звезд

Новый вид муравья — первое живое существо, которое клонирует представителей другого вида

Самый древний динозавр с головой-куполом найден торчащим из скалы в пустыне

Топ-35 игроков российского рынка ИИ-решений

Как облегчить внедрение решений ИБ с помощью промышленного фреймворка

Обзор: Платформы виртуализации 2025

Топ-35 игроков российского рынка ИИ-решений

Just AI представила готовое решение для разработки и управления
ИИ-агентами

Как облегчить внедрение решений ИБ с помощью промышленного фреймворка

MWS AI выпустила первую мультимодальную модель для работы с изображениями и текстом

Другие материалы рубрики

Конференции

Low-code и no-code

Цифровая инфраструктура будущего

CNews FORUM 2025: Информационные технологии завтра

CNewsMarket

IP-телефония

Dedicated

VPS

Kubernetes

Техника

Как создать простые и анимированные стикеры в Telegram: простая инструкция

Темная сторона онлайн-знакомств: чем опасны дейтинг-сервисы

Лучшие умные увлажнители для отопительного сезона 2025: хиты продаж

Наука

Идеальных мест для жизни в нашей Галактике больше, чем считалось — все дело в миграции звезд

Новый вид муравья — первое живое существо, которое клонирует представителей другого вида

Самый древний динозавр с головой-куполом найден торчащим из скалы в пустыне

Топ-35 игроков российского рынка ИИ-решений

Как облегчить внедрение решений ИБ с помощью промышленного фреймворка

Обзор: Платформы виртуализации 2025

Топ-35 игроков российского рынка ИИ-решений

Just AI представила готовое решение для разработки и управления ИИ-агентами

Как облегчить внедрение решений ИБ с помощью промышленного фреймворка

Just AI представила готовое решение для разработки и управления
ИИ-агентами