This is an info Alert.
  • Главная
  • Новости
  • Блог
  • Обо мне
Вход

Блог и заметки о разработке. Для связи удобнее всего использовать соцсети ниже.

Документы
Условия использованияПолитика конфиденциальности
Контакты
talalaev.misha@gmail.com

© All rights reserved.

Тестируем ASR-модели Qwen и Whisper на дореволюционном русском

Mikhail T. (Sh0ny)
Mikhail T. (Sh0ny)

24 июня 2026

  1. Главная
  2. Блог
  3. Тестируем ASR-модели Qwen и Whisper на дореволюционном русском
1 мин чтения
Современные системы распознавания речи обещают учитывать контекст, но их возможности ограничены. Мы протестировали модели Qwen и Whisper на дореволюционных текстах, чтобы оценить качество транскрибации при длинных записях и шуме.

Записывать мысли голосом или расшифровывать диалоги — удобно, но не всегда надёжно. Современные ASR-системы (автоматическое распознавание речи) нового поколения, такие как Qwen и Whisper, способны учитывать контекст и выдавать осмысленный текст. Однако у них есть архитектурные ограничения.

Чтобы понять, готовы ли эти модели к реальным сценариям, мы провели бенчмарк на Hugging Face. Основное внимание уделили дореволюционному русскому языку — редкому и сложному для распознавания.

Что проверяли

  • Контекстное окно: ломается ли понимание на длинных видеозаписях?
  • Влияние шума: как фоновый шум сказывается на качестве транскрибации?

Результаты

  • Модели показали разную устойчивость к длинным записям. Qwen лучше держит контекст, но Whisper точнее на коротких фрагментах.
  • Шум значительно снижает точность обеих моделей, особенно при низком соотношении сигнал/шум.
  • На дореволюционном языке обе модели ошибаются чаще, чем на современном русском.

Итоги

Тестирование показало, что даже передовые ASR-системы не идеальны. Для повышения качества распознавания в специфических условиях (длинные записи, шум, редкие языки) требуются дополнительные доработки.

Источник: Хабр

новости
ai
нейросети
технологии

Комментарии

(0)
​