Цифровизация Искусственный интеллект

14 Мая 2025 10:54 14 Мая 2025 10:54 |

Исследование TRASSIR и AIRI: применение мультимодальных моделей в задачах видеоаналитики

TRASSIR и институт AIRI завершили первый этап совместного исследовательского проекта, направленного на изучение потенциала мультимодальных моделей в анализе видеоданных. Проект сосредоточен на разработке и апробации эффективных пайплайнов видеоаналитики с использованием современных ИИ-архитектур. Об этом CNews сообщили представители AIRI.

Проект был направлен на создание эффективного пайплайна видеоаналитики с использованием мультимодальных моделей для расследования краж товара в магазинах. В процессе работы особое внимание уделялось снижению уровня ложных срабатываний и обеспечению устойчивости алгоритмов при отсутствии дополнительного обучения.

В исследовании использовались мультимодальные модели, работающие в zero-shot-режиме, то есть без дообучения на специализированных выборках. Такой подход позволил оценить универсальность моделей и определить границы применимости к задачам видеоаналитики.

Разработанный пайплайн учитывает и ограничения — объем видеопамяти и скорость обработки, а также хорошо справляется с анализом сцен. Проблемной зоной являются короткие, быстрые эпизоды. В ответ на этот вызов предложены методы повторной обработки видео с фокусировкой на детализацию значимых фрагментов.

Были реализованы следующие методические улучшения: механизмы рассуждения, позволяющие лучше распознавать сложные действия (например, «взятие+возврат» товара); детализация эпизодов интереса для более точного анализа коротких событий; поддержка потокового видео с учетом длинного временного контекста.

Так, в рамках одного из тестовых сценариев система изначально ошибочно определила резкий наклон покупателя как попытку кражи. После внедрения механизма рассуждения и анализа последовательности действий система корректно распознала, что покупатель просто наклонялся за упавшим товаром.

Почему премиальная поддержка «1С» становится преимуществом для заказчика?

цифровизация

Анализ решений западных коллег, включая Amazon, показал, что основными ограничениями зарубежных систем являются отсутствие адаптации моделей к специфике целевого домена и слабая эффективность при анализе краткосрочных событий. Учет этих факторов позволил создать более устойчивую архитектуру.

Результаты исследования задали направление для последующих работ в области прикладной видеоаналитики. Один из будущих проектов предусматривает использование мультимодальных моделей для оценки соблюдения стандартов обслуживания в предприятиях общественного питания, включая: анализ аудиокомпоненты на предмет соблюдения речевых скриптов, визуальный контроль за соблюдением санитарных норм и стандартов внешнего вида персонала, а также детекцию нарушений, связанных с условиями допродаж и чистотой торгового пространства.

Особенность проекта заключается в интеграции речевых и визуальных данных в рамках единого аналитического пайплайна — одного из первых коммерчески ориентированных решений на основе мультимодальных ИИ-моделей.

TRASSIR и AIRI планируют продолжать исследовательскую деятельность в направлении разработки интеллектуальных и адаптивных систем видеоанализа.

10 функций Telegram, о которых вы не знали: наводим порядок в чатах

Подписаться на новости

Короткая ссылка

Исследование TRASSIR и AIRI: применение мультимодальных моделей в задачах видеоаналитики

Другие материалы рубрики

Конференции

IT Elements 2025

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025

CNewsMarket

BPM

ИТ-безопасность

DBaaS

IaaS

Техника

Лучшие ПК для игр и учебы: выбор ZOOM

Лучшие детские часы с русскоязычным голосовым помощником: выбор ZOOM

Лучшие роутеры с Wi-Fi 6: хиты продаж

Наука

Как почти 7000 плотин смогли сместить Северный полюс Земли?

Кладбище китов в Сахаре показало, что когда-то у них были ноги и пальцы

Астрономы обнаружили пропавшую материю Вселенной — помогла огромная газовая нить, протянувшаяся через космос

Топ-40 разработчиков корпоративных мобильных приложений

«Маркетплейсы никогда не смогут стать продуктовыми ритейлерами»

Электронный бюджет: как устроена гигантская ИТ-система России

Топ-40 разработчиков корпоративных мобильных приложений

Маркетплейсы никогда не смогут стать продуктовыми ритейлерами

БЕГ
С ПРЕПЯТСТВИЯМИКрупнейшие
ИТ-компании России

Исследование TRASSIR и AIRI: применение мультимодальных моделей в задачах видеоаналитики

Другие материалы рубрики

Конференции

IT Elements 2025

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025

CNewsMarket

BPM

ИТ-безопасность

DBaaS

IaaS

Техника

Лучшие ПК для игр и учебы: выбор ZOOM

Лучшие детские часы с русскоязычным голосовым помощником: выбор ZOOM

Лучшие роутеры с Wi-Fi 6: хиты продаж

Наука

Как почти 7000 плотин смогли сместить Северный полюс Земли?

Кладбище китов в Сахаре показало, что когда-то у них были ноги и пальцы

Астрономы обнаружили пропавшую материю Вселенной — помогла огромная газовая нить, протянувшаяся через космос

Топ-40 разработчиков корпоративных мобильных приложений

«Маркетплейсы никогда не смогут стать продуктовыми ритейлерами»

Электронный бюджет: как устроена гигантская ИТ-система России

Топ-40 разработчиков корпоративных мобильных приложений

Маркетплейсы никогда не смогут стать продуктовыми ритейлерами

БЕГС ПРЕПЯТСТВИЯМИКрупнейшиеИТ-компании России

БЕГ
С ПРЕПЯТСТВИЯМИКрупнейшие
ИТ-компании России