VK выложила в открытый доступ нейросеть, понимающую сложные тексты на разговорном языке
VK выложила в открытый доступ нейросеть, которая способна понять сложные тексты на разговорном русском языке. По уверениям разработчиков, модель работает лучше своего предшественника ModernBERT, которая, в свою очередь, опережает BERT от Google.
Нейросеть для обработки сложных текстов
VK выложила в открытый доступ модель RuModernBERT для обработки текстов на естественном русском языке. Нейросеть работает локально, без внешних API, сообщили CNews представители VK.
RuModernBERT можно использовать обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах, говорится в сообщении. Она может понять разговорную речь, сложный или длинный запрос пользователя.
Пользователям доступны несколько версий модели — на 150 млн параметров и облегченный вариант на 35 млн параметров. Также обновлены две дополнительные версии: User и User2.
Заявленные преимущества
RuModernBERT обучили на двух трлн токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Использовались разные источники данных, в том числе книги, статьи, посты и комментарии в соцсетях.
RuModernBERT, как заявляют разработчики, работает быстрее аналогов: обучение и развертывание на конечных устройствах на 10–20%, обработка данных — в два-три раза быстрее на длинных контекстах по сравнению с ModernBERT.
Каждый следующий лучше предыдущего
Модель обработки естественного языка с открытым исходным кодом ModernBERT была запущена в 2024 г. Об этом ее создатели — Answer.AI и LightOn — объявили в декабре 2024 г. в блоге на Hugging Face. Они уверяли, что нейросеть обрабатывает текст в четыре раза быстрее своего предшественника — BERT от Google (Bidirectional Encoder Representations from Transformers, появилась в 2018 г.), а также быстрее GPT-4.
В блоге было сказано, что ModernBERT подходит для многих реальных приложений (от систем генерации с дополнением поиска до поиска кода и модерации контента), что в отличие от GPT-4, которая требует специализированного оборудования, модель эффективно работает на потребительских игровых GPU. Для обучения ModernBERT использовали тоже два трлн токенов из веб-документов, программного кода и научных статей.

В августе 2024 г. представители T-Bank сообщили CNews, что в их лаборатории искусственного интеллекта T-Bank AI Research разработали новую архитектуру быстрых языковых моделей ReBased, оптимизировав архитектуру Base, представленной учеными Стэнфорда в декабре 2023 г.
По данным T-Bank, ReBased обладает лучшей производительностью, при этом качество ее работы с длинными текстами тоже выше. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.