This is an info Alert.
  • Главная
  • Новости
  • Блог
  • Обо мне
Вход

Блог и заметки о разработке. Для связи удобнее всего использовать соцсети ниже.

Документы
Условия использованияПолитика конфиденциальности
Контакты
talalaev.misha@gmail.com

© All rights reserved.

Нейронные аудиокодеки: сжатие звука с помощью LLM

Mikhail T. (Sh0ny)

20 июня 2026

  1. Главная
  2. Блог
  3. Нейронные аудиокодеки: сжатие звука с помощью LLM
1 мин чтения
Французская компания Kyutai выпустила речевую модель Moshi с нейронным аудиокодеком Mimi — первый открытый голосовой end-to-end AI для диалогов в реальном времени. Разбираем, как работают такие кодеки.

В июле 2024 года французская компания Kyutai представила модель Moshi — первый в мире голосовой end-to-end AI с открытым исходным кодом, способный вести диалог в реальном времени. Ключевая технология внутри — нейронный аудиокодек Mimi.

Как это работает?

Вместо прямого предсказания сэмплов звука, аудиокодек действует в три этапа:

  • Токенизация звука — преобразование аудиосигнала в последовательность токенов.
  • Предсказание следующих токенов с помощью LLM — нейросеть учится угадывать, какие токены последуют.
  • Восстановление оригинала — обратное преобразование токенов в звук.

Такой подход позволяет значительно сжать аудиоданные без потери качества, что открывает новые возможности для голосовых интерфейсов и коммуникаций в реальном времени.

Источник: Лучшие публикации за неделю

нейронные сети
аудиокодеки
llm
искусственный интеллект
открытый код

Комментарии

(0)
​