22 июня 2026
Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять. Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru.
Быстро выяснилось, что хороший LLM-судья — это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации. Наивные подходы вроде простого промпта не работают: оценки получаются несогласованными и ненадёжными.
Мы проектировали систему оценки, которая включает:
Каждая рубрика имеет свой набор критериев, а LLM-судья обучается на размеченных примерах. Это позволило повысить согласованность оценок и снизить количество ошибок.
Главный урок: LLM-судья требует такого же внимания к качеству, как и основной продукт. Нельзя просто взять модель и надеяться, что она будет оценивать правильно. Нужны:
Только так можно добиться доверия к автоматическим оценкам.
Источник: Хабр