21 Июля 2025 12:46 21 Июл 2025 12:46 |

Альянс в сфере ИИ запустил MERA Code — первый открытый бенчмарк для оценки русскоязычных моделей на реальных задачах программирования

Альянс в сфере ИИ представил новый инструмент – MERA Code — первый комплексный открытый бенчмарк для оценки больших языковых моделей в прикладных задачах программирования на русском языке. В разработке бенчмарка принимали участие команды Сбербанка, «Т-Банка», MWS AI (входит в «МТС Web Services»), «Ростелекома», Университета Иннополис, ИТМО, «Сколтеха», Центрального университета и компании «Сибирские нейросети». Об этом CNews сообщили представители Альянса в сфере ИИ.

С развитием больших языковых моделей разработчики все чаще используют искусственный интеллект для генерации кода, автоматизации рутинных задач и работы с документацией. Однако до сих пор не существовало единого способа оценить, насколько хорошо эти модели справляются с практическими задачами в русскоязычной среде. MERA Code — это важный шаг к стандартизации и объективности оценки больших языковых моделей в русскоязычной среде программирования. Он позволяет увидеть, насколько современные большие языковые модели действительно полезны и эффективны в реальных задачах локального рынка.

Платформа Digital Q.BPM от «Диасофт» — лидер рейтинга BPM-систем для крупного бизнеса по версии CNews Market

Цифровизация

Ключевые особенности MERA Code: прозрачная методика оценки LLM для русского языка: впервые создан стандарт, учитывающий специфику постановки задач и документации на русском языке; задачи и методика оценки отражают типичные кейсы, с которыми сталкиваются программисты в русскоязычной среде; 11 разнообразных задач в форматах text2code, code2text и code2code — на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala; честное тестирование — код запускается в изолированных средах, а не просто оценивается по тексту; открытая платформа со сквозной системой подсчета баллов, рейтингом и удобным фреймворком для тестирования; анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.

Инструмент MERA Code будет полезен как разработчикам и инженерам в возможности выбирать наиболее эффективные модели для своих проектов, так и исследователям, которые смогут объективно сравнивать модели в единых условиях, и компаниям, получающим возможность принимать решения на основе открытых и прозрачных данных о качестве LLM.

Лучший российский софт для видеосвязи: ищем замену Teams и Zoom

Подписаться на новости

Короткая ссылка

Альянс в сфере ИИ запустил MERA Code — первый открытый бенчмарк для оценки русскоязычных моделей на реальных задачах программирования

Другие материалы рубрики

Конференции

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025

Технологии искусственного интеллекта

CNewsMarket

Email-рассылки

IaaS

S3-хранилище

ERP

Техника

Прохлада без монтажа: 7 мобильных кондиционеров с Wi-Fi

Обзор Acer PD163Q: уникальный, складной, двойной портативный монитор

Лучшие TWS-наушники открытого типа: хиты продаж

Наука

Трансформация пузырьков воздуха в ледниках — новый способ хранить данные

Несколько месяцев Земля будет вращаться намного быстрее — настолько быстро, что дни станут короче

Превращение Марса во вторую Землю может стать реальным: что для этого нужно?

CNews. МиллиардерыПервыйопубликован первый рейтинг самых богатых владельцев публичных интернет-компаний в России

«Маркетплейсы никогда не смогут стать продуктовыми ритейлерами»

Маркетплейсы никогда не смогут стать продуктовыми ритейлерами

CNews. МиллиардерыПервыйопубликован первый рейтинг самых богатых владельцев публичных интернет-компаний в России

Топ-40 разработчиков корпоративных мобильных приложений

Электронный бюджет: как устроена гигантская ИТ-система России