Новый ИИ от Microsoft генерирует 90-минутные подкасты с четырьмя голосами!

Опубликовано: 11.09.2025 Просмотров: ...

Скриншот VibeVoice

Microsoft представила открытый движок VibeVoice, способный превращать текстовые материалы в аудиоподкасты продолжительностью до 90 минут на английском и китайском языках. Авторы проекта уже обещают расширить лингвистический арсенал в будущих релизах.

Ключевым преимуществом VibeVoice стало одновременное участие до четырёх разных голосов в одном эпизоде, тогда как большинство конкурентов умеют оперировать лишь одним или двумя спикерами.

На данный момент доступны две редакции системы. Лёгкая версия с 1,5 млрд параметров генерирует 90-минутное аудио и принимает на вход тексты объёмом до 64 тыс. токенов. Увеличенная модель на 7 млрд параметров позволяет создавать записи длиной до 45 минут и обрабатывать до 32 тыс. токенов текста.

Microsoft также анонсировала облегчённый вариант с 0,5 млрд параметров для работы в реальном времени. Для локального развёртывания минимальная потребность в видеопамяти составляет около 7 ГБ, тогда как старшая модель требует до 18 ГБ.

VibeVoice умеет передавать эмоциональные оттенки и обеспечивать плавные переходы между репликами разных участников. Несмотря на высокую реалистичность звучания, слушатель всё ещё может распознать синтетическое происхождение голосов. Что касается музыкального сопровождения, синтез композиций пока не входит в возможности движка.

В планах разработчиков — добавить функцию клонирования реального голоса, чтобы создавать подкасты с подражанием индивидуальным интонациям.

Краткий пересказ:

VibeVoice — новый open-source проект от Microsoft для преобразования текста в аудиоподкасты длительностью до 90 минут.
Система поддерживает до четырёх независимых голосов, значительно опережая аналогичные решения.
Доступны модели на 1,5 млрд и 7 млрд параметров, а в будущем выйдет версия на 0,5 млрд для работы в реальном времени.
Разработчики планируют добавить клонирование голоса и расширить набор поддерживаемых языков.

Теги: VibeVoice, Microsoft, ИИ, подкасты, open-source, голосовой синтез, мультиспикер, модель параметров, токены, клонирование голоса

Похожие

PromptLock: Первый ИИ-вирус, угрожающий всем операционным системам

GitHub в Огне: Как ИИ-атака s1ngularity вскрыла тысячи аккаунтов и репозиториев!

Google A2A: Новый стандарт для взаимодействия ИИ-агентов