Разделы

ПО Веб-сервисы

«Яндекс» рассказал, как повышает точность и ускоряет ответы «Нейроюриста» с помощью векторного поиска

Команда разработки «Нейроюриста» раскрыла, как работает гибкий поиск по юридическим документам, который за доли секунды находит нужную информацию в указанных категориях — например, судебную практику по гражданским делам. Благодаря собственной технологии — векторному поиску в YDB — нейросеть способна быстро и точно находить необходимое количество материалов для ответа. Разработка решает общую для многих отраслей проблему: как помочь нейросети избегать ошибок, когда данные неравномерны. Об этом CNews сообщили представители «Яндекса».

В юридической сфере объем законов и актов в разных категориях различается на порядки — от тысяч (законодательство по корпоративному праву) до миллионов (судебная практика по защите прав потребителей). При этом чтобы модель не галлюцинировала, ей необходимо всегда опираться на достаточный объем актуальных правовых актов и достоверных источников.

«Мы запускали «Нейроюриста» с семью сферами права и понимали, что предстоит постоянно кратно расширять базу при сохранении скорости и качества ответов. Нам нужно было решение, которое хорошо масштабируется и позволяет делать сервис еще точнее», — сказали разработчики.

Разработанное на основе YDB (СУБД «Яндекса») решение позволяет гарантированно получать весь релевантный контекст независимо от размера базы. Это обеспечивает нужный уровень полноты ответов и скорости поиска при запросах в любых категориях.

Такой подход не ограничивается юридической сферой и может быть востребован везде, где требуется высокая точность при работе с большими и несбалансированными массивами данных: в медицине, финансах, страховании, правоохранительной деятельности и других областях, где цена ошибки велика.

Ключевая технология, обеспечивающая быстрые и точные ответы, — поиск по векторному индексу (способу представления информации в компактном числовом виде). Он был с нуля разработан как часть YDB — распределенной SQL СУБД Яндекса — и поэтому обладает значимыми для крупных организаций свойствами: устойчивостью к внезапным отказам оборудования и всплескам нагрузок, а также легким расширением объема данных.

«Сбер» перешел на российское решение для анализа кода
«Сбер» перешел на российское решение для анализа кода Импортонезависимость

Платформа позволяет создавать для одной таблицы несколько разных векторных индексов с фильтрацией. Одни индексы оптимизированы для глубокого поиска в миллионах документов за 10 мс, другие — для такого же быстрого перебора в небольших массивах. В момент запроса «Нейроюрист» автоматически выбирает тот индекс, который лучше всего подходит под конкретный фильтр.

После выбора индекса начинается поиск: система превращает запрос пользователя в вектор — набор чисел, который отражает смысл вопроса, — и ищет в выбранном индексе документы с максимально подходящими векторами. Найденные документы добавляются в промпт языковой модели, и уже на их основе формулируется финальный ответ со ссылками на реальные нормы и судебные решения. Такой подход называется RAG (retrieval augmented generation), он дает возможность модели не домысливать факты и опираться только на найденные документы.

Новый механизм поиска показал высокую эффективность не только с точки зрения полноты и точности на редких выборках, но и по времени выполнения запросов на объемах данных в миллионы векторов.

Ранее в пилотной версии поиск занимал несколько секунд. Внедрение нового решения сократило время поиска в десятки раз — до десятых долей секунды. При этом сохраняется высокое качество и скорость ответов даже при расширении базы данных, потому что выбор индекса всегда адаптируется под объем.



До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях» До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях»

erid: 2W5zFHXcZPo

Рекламодатель: ООО «ФЛАТ-ПРО»

ИНН/ОГРН: 9714013259/1237700428240

Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797