Как агент находит «то самое» дело — метод ранжирования

Когда юрист открывает «Консультант», он ищет акт по словам. Когда юрист открывает sudpractica.ai, он ищет позицию по смыслу. Это две разные операции — и они дают разные результаты. {.lede}

Шаг первый: семантический эмбеддинг

Запрос пользователя превращается в вектор смыслов с помощью многоязычной модели, обученной на корпусе российской судебной практики. Это означает, что фраза «удержали зарплату за ущерб» и «вычли из зарплаты сумму причинённого вреда» дают близкие векторы — и обе находят релевантные дела по ст. 248 ТК РФ.

Шаг второй: правовая близость

Для каждого дела в индексе мы храним отдельный вектор позиций суда. На этом шаге sudpractica.ai ищет дела, в которых позиция суда близка к смыслу запроса, а не просто упомянуты те же ключевые слова.

Правовая близость — это не близость текстов, а близость аргументов. Если суд в одном деле сказал «нельзя удерживать без согласия работника», а в другом — «удержание возможно только в пределах среднего заработка», эти позиции близкие по теме, но разные по существу. — Внутренний документ sudpractica.ai, методические заметки

Шаг третий: переранжирование

После первичной выборки агент дочитывает топ-200 кандидатов целиком, оценивает их по 11 факторам (исход, инстанция, новизна, цитируемость, размер денежных требований, отраслевая принадлежность и т.д.) и пересортировывает.

Шаг четвёртый: проверка цитат

На финальном шаге каждое предложенное дело проверяется: указанные в карточке цитаты действительно присутствуют в тексте акта, ссылки на пункты — корректные. Это убирает галлюцинации, которые остаются основной проблемой LLM-поисковиков.

Так выглядит весь конвейер на одной странице — четыре стадии, каждая отвечает за свою задачу, и в сумме они дают то, что в классическом поиске невозможно: семантически релевантные дела с верифицированными цитатами.