ПО Свободное ПО Софт Техника Открытое ПО

10 Апреля 2024 16:51 10 Апр 2024 16:51 |

Россияне выложили в открытый доступ исходный код мультимодального ИИ

Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Российская модель искусственного интеллекта (ИИ) OmniFusion восстановит рецепт блюда по фотографии и решит пример на доске. При участии разработчиков из подразделений Sber AI и SberDevices Сбербанка.

Опубликован код OmniFusion

Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.

OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.

На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.

Ранее издание CNews уже сообщало о разрабтке. Например, с помощью ИИ можно решить логические задачи, написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX.

Unsplash - Charlesdeluvio

Исходный код российской мультимодальной ИИ-модели опубликован в открытом доступе

На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.

В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices.

AIRI

Научно-исследовательский институт ИИ (AIRI), ранее имел название Институт ИИ Сбербанка – российская автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института - создание универсальных систем ИИ для решения задач реального мира.

В декабре 2020 г. глава Сбербанка Герман Греф анонсировал открытие первого в России института ИИ. Образовательное учреждение заработает в Москве в январе 2021 г. Греф отмечал, что экосистемы банка ведут более тысячи исследовательских проектов в области ИИ, и на каждые 15 руб., проинвестированных в развитие команд Data Science, генерируется дополнительный доход в 100 руб. На 2022 г. более 90 научных сотрудников задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.

Модели искусственного интеллекта

ИИ-модель представляет собой программу, которая была обучена на наборе данных распознавать определенные закономерности или принимать определенные решения без дальнейшего вмешательства человека. Модели ИИ применяют различные алгоритмы к соответствующим входным данным, чтобы достичь тех задач или результатов, на которые они были запрограммированы. Проще говоря, ИИ-модель определяется ее способностью автономно принимать решения или делать прогнозы, а не имитировать человеческий интеллект. Одними из первых успешных моделей ИИ стали программы для игры в шашки и шахматы в 1950-х г. Модели позволяли программам делать ходы в прямой реакции на действия соперника, а не следовать заранее заготовленным сериям ходов.

Различные типы моделей ИИ лучше подходят для конкретных задач или областей, для которых их особая логика принятия решений наиболее полезна или актуальна. Сложные системы часто используют несколько моделей одновременно, применяя методы ансамблевого обучения, такие как bagging, boosting или stacking.

Как решение Novo Forecast Enterprise помогает дистрибьютору Nestle, Mars и P&G в СНГ экономить ₽1 млрд в год

Маркет

По мере того как инструменты ИИ на 2024 г. становятся все более сложными и универсальными, они требуют все более сложных объемов данных и вычислительной мощности для обучения и выполнения. В ответ на это системы, предназначенные для выполнения конкретных задач в одной области, уступают место базовым моделям, предварительно обученным на больших немаркированных наборах данных и способным решать широкий спектр задач. Эти универсальные базовые модели можно затем тонко настраивать для решения конкретных задач.

Один из способов различать модели машинного обучения - это их фундаментальная методология: большинство из них можно отнести либо к генеративным, либо к дискриминативным. Различие заключается в том, как они моделируют данные в заданном пространстве.

Глубокое обучение — совокупность методов машинного обучения, основанных на обучении представлениям, а не специализированных алгоритмах под конкретные задачи Несколько слоев взаимосвязанных узлов постепенно получают данные, извлекают ключевые характеристики, выявляют взаимосвязи и уточняют решения в процессе, называемом прямым распространением. Другой процесс, называемый обратным распространением, применяет модели, которые вычисляют ошибки и соответствующим образом корректируют веса и смещения системы. Большинство продвинутых приложений ИИ, например большие языковые модели (LLM), которыми оснащаются современные чат-боты, используют глубокое обучение. Данные операции требует больших вычислительных ресурсов.

Подобрать оптимальный тариф на IaaS на ИТ-маркетплейсе Market.CNews среди десятков поставщиков

Антон Денисенко

Подписаться на новости

Короткая ссылка

Россияне выложили в открытый доступ исходный код мультимодального ИИ

Опубликован код OmniFusion

AIRI

Модели искусственного интеллекта

Другие материалы рубрики

Конференции

ELMA DAY’24: Экосистема Low-code решений

CNews Awards 2024

CNews FORUM 2024: Информационные технологии завтра

MARKET.CNEWS

Email-рассылки

ERP

Kubernetes

BPM

Техника

Как перенести WhatsApp на другой смартфон: инструкция для iPhone и Android-гаджетов

Обзор беспроводной колонки Vipe Spark: мощная, портативная, практичная

Неттопы и мини-ПК для учебы и игр: хиты продаж

Наука

Что будет с планетой через 8 миллиардов лет: обнаружена планета-калька Земли

Мрачное исследование: похоже, инопланетные цивилизации убивают сами себя из-за изменения климата

Черные дыры не то, чем они кажутся: новые данные разрешают их парадокс

Наша новая серверная платформа стала полностью локализованной

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Мы должны быть независимы в технологическом плане, но закрытые рынки в этом не помогут

Метрокластер, NGFW, супераппы, KubeVirt и не только: какие тренды обсуждают тысячи ИТ-экспертов

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Отсутствие универсальных LLM-решений в нефтегазе ведет к дублированию усилий и лишним расходам

Наша новая серверная платформа стала полностью локализованной

Распространение overcloud-решений даст импульс новым облачным сервисам

Топ-10 поставщиков PaaS
Топ-50 поставщиков IaaS
Топ-90 поставщиков SaaS

Россияне выложили в открытый доступ исходный код мультимодального ИИ

Опубликован код OmniFusion

AIRI

Модели искусственного интеллекта

Другие материалы рубрики

Конференции

ELMA DAY’24: Экосистема Low-code решений

CNews Awards 2024

CNews FORUM 2024: Информационные технологии завтра

MARKET.CNEWS

Email-рассылки

ERP

Kubernetes

BPM

Техника

Как перенести WhatsApp на другой смартфон: инструкция для iPhone и Android-гаджетов

Обзор беспроводной колонки Vipe Spark: мощная, портативная, практичная

Неттопы и мини-ПК для учебы и игр: хиты продаж

Наука

Что будет с планетой через 8 миллиардов лет: обнаружена планета-калька Земли

Мрачное исследование: похоже, инопланетные цивилизации убивают сами себя из-за изменения климата

Черные дыры не то, чем они кажутся: новые данные разрешают их парадокс

Наша новая серверная платформа стала полностью локализованной

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Как снизить риски и упростить внутренний аудит при помощи GRC-систем

Мы должны быть независимы в технологическом плане, но закрытые рынки в этом не помогут

Метрокластер, NGFW, супераппы, KubeVirt и не только: какие тренды обсуждают тысячи ИТ-экспертов

Есть три ИБ-сегмента с наиболее острым дефицитом российских решений

Отсутствие универсальных LLM-решений в нефтегазе ведет к дублированию усилий и лишним расходам

Наша новая серверная платформа стала полностью локализованной

Распространение overcloud-решений даст импульс новым облачным сервисам

Топ-10 поставщиков PaaS Топ-50 поставщиков IaaSТоп-90 поставщиков SaaS

Топ-10 поставщиков PaaS
Топ-50 поставщиков IaaS
Топ-90 поставщиков SaaS