24 июня 2026
Записывать мысли голосом или расшифровывать диалоги — удобно, но не всегда надёжно. Современные ASR-системы (автоматическое распознавание речи) нового поколения, такие как Qwen и Whisper, способны учитывать контекст и выдавать осмысленный текст. Однако у них есть архитектурные ограничения.
Чтобы понять, готовы ли эти модели к реальным сценариям, мы провели бенчмарк на Hugging Face. Основное внимание уделили дореволюционному русскому языку — редкому и сложному для распознавания.
Тестирование показало, что даже передовые ASR-системы не идеальны. Для повышения качества распознавания в специфических условиях (длинные записи, шум, редкие языки) требуются дополнительные доработки.
Источник: Хабр