Цифровизация

22 Ноября 2023 16:14 22 Ноя 2023 16:14 |

В AIRI разработали ИИ-модель, которая мыслит образами

Новая мультимодальная диалоговая модель OmniFusion способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Об 22 ноября 2023 г. рассказал доктор физико-математических наук, СЕО института искусственного интеллекта AIRI Иван Оселедец.

Анализируя предоставленные пользователем изображения, OmniFusion точно распознает расположенные на них объекты, их количество, цвет и положение в пространстве. Модель способна не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлеченную информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или графический ребус, а также объяснить мем. Об этом CNews сообщили представители AIRI.

В модели OmniFusion используется очень интересный способ объединения разных модальностей –– картинок и текста –– без дорогостоящего обучения «с нуля». Исследователи правильным образом построили энкодеры и дообучили уже существующую языковую модель понимать изображения.

Обучением модели занималась научная группа FusionBrain института AIRI под руководством кандидата технических наук Андрея Кузнецова при участии ученых из Sber AI.

В ходе обучения OmniFusion использовали датасеты, составленные из картиночно-текстовых диалогов, а также вопросов с ответами по картинкам.

Среди уже существующих в мире аналогов модели можно выделить два наиболее производительных решения: модель LLaVA и модель GPT-4V от OpenAI, которая ранее была интегрирована в сервис ChatGPT. Модель OpenAI закрыта для сторонних разработчиков. Сравнение OmniFusion с открытой моделью LLaVA на основе 10 различных бенчмарков показало, что качество OmniFusion не уступает, а в ряде случаев даже превосходит конкурента, несмотря на то, что в основе OmniFusion лежит намного более «легкая» языковая модель. В основе LLaVA лежит языковая модель с 13 млрд параметров, в то время как языковая модель в основе OmniFusion содержит всего 7 млрд. Это значит, что модель более экономичная и быстрая.

Wings Solutions на платформе Digital Q.Palette обновила интерфейс доставки уведомлений

Бизнес-коммуникации

«Сейчас модель стабильно работает на английском языке и обучается грамотному владению русским, чтобы стать доступной пользователям, а наша команда готовит научную публикацию о процессе создания OmniFusion. Общение с помощью изображений – это новый уровень взаимодействия ИИ-модели с человеком, более естественный и привычный для каждого из нас формат коммуникации. Мы будем продолжать активно развивать модель и добавлять в нее новые модальности», – сказал Иван Оселедец.

***

Научно-исследовательский институт искусственного интеллекта AIRI — автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области искусственного интеллекта. На сегодняшний день более 90 научных сотрудников AIRI задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.

Первый в России ИТ-маркетплейс CNewsMarket для Вашего бизнеса. С ценами на ИТ-услуги от сотен поставщиков

Подписаться на новости

Короткая ссылка

В AIRI разработали ИИ-модель, которая мыслит образами

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

IP-телефония

RPA

Dedicated

DRaaS

Техника

Обзор беспроводной акустической системы Hisense HT Saturn: новый уровень комфорта и погружения

Лучшие устройства Dreame на распродаже к 8 марта: выбор ZOOM

Лучшие моноблоки с диагональю 27 дюймов: хиты продаж

Наука

Когда и как водород попал на Землю? Крупнейший на планете резервуар — прямо у нас под носом

Почему наступают ледниковые периоды? Ученые назначили козлом отпущения Марс

Новое исследование показывает, что человеческий мозг работает на автопилоте две трети дня

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Топ-10
ИТ-трендов
в России на 2026 г.

В AIRI разработали ИИ-модель, которая мыслит образами

Другие материалы рубрики

Конференции

Business Process Management 2026

Технологии искусственного интеллекта 2026

Цифровизация HR 2026

CNewsMarket

IP-телефония

RPA

Dedicated

DRaaS

Техника

Обзор беспроводной акустической системы Hisense HT Saturn: новый уровень комфорта и погружения

Лучшие устройства Dreame на распродаже к 8 марта: выбор ZOOM

Лучшие моноблоки с диагональю 27 дюймов: хиты продаж

Наука

Когда и как водород попал на Землю? Крупнейший на планете резервуар — прямо у нас под носом

Почему наступают ледниковые периоды? Ученые назначили козлом отпущения Марс

Новое исследование показывает, что человеческий мозг работает на автопилоте две трети дня

Чем дольше тянешь с уходом от SAP, тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни, где, как и для чего»

Чем дольше тянешь с уходом от SAP, тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни, где, как и для чего»

Топ-10 ИТ-трендов в России на 2026 г.

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Чем дольше тянешь с уходом от SAP,
тем дороже внедрение

Студентам говорят «используй ИИ при написании диплома, только объясни,
где,
как и для чего»

Топ-10
ИТ-трендов
в России на 2026 г.