Разделы

ПО Искусственный интеллект axenix

Альянс в сфере ИИ представил бенчмарк MERA Industrial: новый стандарт оценки отраслевых LLM для решения бизнес-задач

Альянс в сфере ИИ объявил о запуске нового раздела MERA «MERA Industrial» — уникального бенчмарка для оценки больших языковых моделей (LLM) в различных отраслях. На платформе уже доступны бенчмарки по медицине и сельскому хозяйству, которые помогут компаниям и экспертам выбрать и внедрить LLM, максимально соответствующие их бизнес-задачам. Об этом CNews сообщили представители Альянса в сфере ИИ.

В настоящий момент на сайте размещены три задачи, две из которых по сельскому хозяйству и одна по медицине.

ruTXTAgroBench: датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области агрономии. Состоит из 2935 оригинальных вопросов по агрономии, охватывающих ботанику, кормопроизводство и луговодство, мелиоративное земледелие, общую генетику, общее земледелие, основы селекции, растениеводство, семеноводство и семеноведение, системы земледелия на различных агроландшафтах, технологии возделывания сельскохозяйственных культур.

ruTXTAquaBench: датасет, предназначенный для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области аквакультуры. Состоит из 1102 задания по аквакультуре, включая индустриальную аквакультуру, кормление рыбы и гидробионтов, марикультуру (например, разведение раков, креветок, выращивание жемчуга), а также ихтиопатологию (ветеринария, профилактика и оптимизация технологий выращивания рыбы).

ruTXTMedQFundamental: датасет, в котором охвачены 17 фундаментальных медицинских дисциплин от клеточной биологии до клинических практик (хирургия, терапия, лабораторная диагностика, фармакология). Тест включает 270 вопросов и 30 тренировочных задач по каждой дисциплине, что позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза.

Датасеты являются полностью оригинальными и составлены на русском языке.

Бенчмарк MERA Industrial создан при поддержке академического сообщества, в частности в проекте приняли участие Сколковский институт науки и технологий, Кубанский государственный аграрный университет, Национальный медицинский исследовательский центр имени В.А. Алмазова, РАНХиГС, Нижегородский государственный архитектурно-строительный университет и другие. Ведущими экспертами тщательно формулируются задания, чтобы обеспечить: достоверность информации на основе подтверждённых источников; полное покрытие отраслевой таксономии; разнообразие сложности и типов задач (от академических до практических кейсов); оригинальность формулировок и отсутствие интернет-заимствований.

Не клонировать, а развивать — российская компания успешно заменила SharePoint
Маркет

MERA Industrial — это не только инструмент для оценки больших языковых моделей, но и площадка для формулирования новых задач и кейсов, валидации заданий, использования готовых бенчмарков для выбора и внедрения LLM в бизнес-процессы.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка: «Сегодня искусственный интеллект становится неотъемлемой частью бизнес-процессов в самых разных отраслях. И бизнесу как никогда нужны надежные инструменты для оценки больших языковых моделей, способных решать реальные отраслевые задачи с высокой точностью и достоверностью. Запуск нового бенчмарка MERA Industrial на площадке Альянса в сфере ИИ – это значимый шаг в сторону прозрачности и качества LLM моделей в различных отраслях, где важен каждый аспект: от проверки знаний модели до её способности работать с уникальными бизнес-кейсами. В Сбере мы активно используем подобные инструменты оценки, чтобы внедрять только проверенные и эффективные решения для наших клиентов».

Дмитрий Марков, исполнительный директор MWS AI (входит в МТС Web Services): «Мы поддерживаем эту инициативу, потому что будущее — не за универсальными моделями, а за отраслевыми решениями. Узкоспециализированные модели эффективнее и точнее решают задачи в конкретной области, требуют меньше вычислительных ресурсов, быстрее обучаются и не перегружены избыточными данными. Их главная функция — качественно отвечать на прикладные запросы в своей сфере. Ключевое условие для эффективности таких инициатив — активное участие всего отраслевого сообщества. Только через открытый диалог и вовлечение большого числа компаний можно построить систему, которая будет учитывать реальные потребности бизнеса и профессионалов».

«Облачный» язык бизнеса: 8 терминов, о которых должен знать каждый руководитель
Цифровизация

Максим Равба, генеральный директор «Русагро Технологии»: «Объективный бенчмаркинг больших языковых моделей — ключевой инструмент для выбора оптимальных ИИ-решений в агробизнесе. Мы уверены, что этот подход позволит компаниям принимать взвешенные решения, находить экономически оправданные технологии и повышать эффективность отрасли. Успех подобных инициатив невозможен без активного участия всего профессионального сообщества, и мы приглашаем коллег из агропромышленного комплекса присоединиться к совместной работе по внедрению передовых технологий, способных вывести сельское хозяйство на новый уровень эффективности и инноваций».

Валерия Воробьева, генеральный директор Альянса в сфере ИИ: «В условиях стремительного развития ИИ и больших языковых моделей, отраслевые бенчмарки становятся ключевым инструментом для объективной оценки и внедрения моделей, способных решать реальные задачи бизнеса — от оптимизации производственных процессов до поддержки принятия решений и повышения качества обслуживания клиентов. MERA Industrial — это новый стандарт прозрачности, достоверности и эффективности в выборе искусственного интеллекта для отраслей, где цена ошибки особенно высока. Мы приглашаем представителей из различных индустрий присоединяться к проекту».