Тестируем ASR-модели Qwen и Whisper на дореволюционном русском

Mikhail T. (Sh0ny)

24 июня 2026

1 мин чтения

Современные системы распознавания речи обещают учитывать контекст, но их возможности ограничены. Мы протестировали модели Qwen и Whisper на дореволюционных текстах, чтобы оценить качество транскрибации при длинных записях и шуме.

Записывать мысли голосом или расшифровывать диалоги — удобно, но не всегда надёжно. Современные ASR-системы (автоматическое распознавание речи) нового поколения, такие как Qwen и Whisper, способны учитывать контекст и выдавать осмысленный текст. Однако у них есть архитектурные ограничения.

Чтобы понять, готовы ли эти модели к реальным сценариям, мы провели бенчмарк на Hugging Face. Основное внимание уделили дореволюционному русскому языку — редкому и сложному для распознавания.

Что проверяли

Контекстное окно: ломается ли понимание на длинных видеозаписях?
Влияние шума: как фоновый шум сказывается на качестве транскрибации?

Результаты

Модели показали разную устойчивость к длинным записям. Qwen лучше держит контекст, но Whisper точнее на коротких фрагментах.
Шум значительно снижает точность обеих моделей, особенно при низком соотношении сигнал/шум.
На дореволюционном языке обе модели ошибаются чаще, чем на современном русском.

Итоги

Тестирование показало, что даже передовые ASR-системы не идеальны. Для повышения качества распознавания в специфических условиях (длинные записи, шум, редкие языки) требуются дополнительные доработки.

Источник: Хабр

новости

нейросети

технологии

Тестируем ASR-модели Qwen и Whisper на дореволюционном русском

Что проверяли

Результаты

Итоги

Комментарии

(0)

Тестируем ASR-модели Qwen и Whisper на дореволюционном русском

Что проверяли

Результаты

Итоги

Комментарии

(0)