20 июня 2026
В июле 2024 года французская компания Kyutai представила модель Moshi — первый в мире голосовой end-to-end AI с открытым исходным кодом, способный вести диалог в реальном времени. Ключевая технология внутри — нейронный аудиокодек Mimi.
Вместо прямого предсказания сэмплов звука, аудиокодек действует в три этапа:
Такой подход позволяет значительно сжать аудиоданные без потери качества, что открывает новые возможности для голосовых интерфейсов и коммуникаций в реальном времени.
Источник: Лучшие публикации за неделю