Как создать надежного LLM-судью: опыт hh.ru

Mikhail T. (Sh0ny)

22 июня 2026

1 мин чтения

Команда hh.ru поделилась опытом разработки системы оценки для нейроразбора резюме. Оказалось, что создание хорошего LLM-судьи — это отдельный продукт, требующий специальных рубрик, датасетов и метрик.

Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять. Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru.

Проблема доверия

Быстро выяснилось, что хороший LLM-судья — это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации. Наивные подходы вроде простого промпта не работают: оценки получаются несогласованными и ненадёжными.

Архитектура судьи

Мы проектировали систему оценки, которая включает:

Чёткие рубрики для оценки (например, соответствие навыков, опыта, образования).
Специализированные датасеты для обучения и валидации.
Метрики качества, позволяющие отслеживать точность оценок.

Каждая рубрика имеет свой набор критериев, а LLM-судья обучается на размеченных примерах. Это позволило повысить согласованность оценок и снизить количество ошибок.

Выводы

Главный урок: LLM-судья требует такого же внимания к качеству, как и основной продукт. Нельзя просто взять модель и надеяться, что она будет оценивать правильно. Нужны:

Датасеты с разметкой от экспертов.
Метрики для постоянного мониторинга.
Итерации по улучшению на основе обратной связи.

Только так можно добиться доверия к автоматическим оценкам.

Источник: Хабр

новости

llm

нейросети

разработка

Как создать надежного LLM-судью: опыт hh.ru

Проблема доверия

Архитектура судьи

Выводы

Комментарии

(0)

Как создать надежного LLM-судью: опыт hh.ru

Проблема доверия

Архитектура судьи

Выводы

Комментарии

(0)