Нейронные аудиокодеки: сжатие звука с помощью LLM

Mikhail T. (Sh0ny)

20 июня 2026

1 мин чтения

Французская компания Kyutai выпустила речевую модель Moshi с нейронным аудиокодеком Mimi — первый открытый голосовой end-to-end AI для диалогов в реальном времени. Разбираем, как работают такие кодеки.

В июле 2024 года французская компания Kyutai представила модель Moshi — первый в мире голосовой end-to-end AI с открытым исходным кодом, способный вести диалог в реальном времени. Ключевая технология внутри — нейронный аудиокодек Mimi.

Как это работает?

Вместо прямого предсказания сэмплов звука, аудиокодек действует в три этапа:

Токенизация звука — преобразование аудиосигнала в последовательность токенов.
Предсказание следующих токенов с помощью LLM — нейросеть учится угадывать, какие токены последуют.
Восстановление оригинала — обратное преобразование токенов в звук.

Такой подход позволяет значительно сжать аудиоданные без потери качества, что открывает новые возможности для голосовых интерфейсов и коммуникаций в реальном времени.

Источник: Лучшие публикации за неделю

нейронные сети

аудиокодеки

llm

искусственный интеллект

открытый код

Нейронные аудиокодеки: сжатие звука с помощью LLM

Как это работает?

Комментарии

(0)

Нейронные аудиокодеки: сжатие звука с помощью LLM

Как это работает?

Комментарии

(0)