Новый ИИ от Microsoft генерирует 90-минутные подкасты с четырьмя голосами!
Microsoft представила открытый движок VibeVoice, способный превращать текстовые материалы в аудиоподкасты продолжительностью до 90 минут на английском и китайском языках. Авторы проекта уже обещают расширить лингвистический арсенал в будущих релизах.
Ключевым преимуществом VibeVoice стало одновременное участие до четырёх разных голосов в одном эпизоде, тогда как большинство конкурентов умеют оперировать лишь одним или двумя спикерами.
На данный момент доступны две редакции системы. Лёгкая версия с 1,5 млрд параметров генерирует 90-минутное аудио и принимает на вход тексты объёмом до 64 тыс. токенов. Увеличенная модель на 7 млрд параметров позволяет создавать записи длиной до 45 минут и обрабатывать до 32 тыс. токенов текста.
Microsoft также анонсировала облегчённый вариант с 0,5 млрд параметров для работы в реальном времени. Для локального развёртывания минимальная потребность в видеопамяти составляет около 7 ГБ, тогда как старшая модель требует до 18 ГБ.
VibeVoice умеет передавать эмоциональные оттенки и обеспечивать плавные переходы между репликами разных участников. Несмотря на высокую реалистичность звучания, слушатель всё ещё может распознать синтетическое происхождение голосов. Что касается музыкального сопровождения, синтез композиций пока не входит в возможности движка.
В планах разработчиков — добавить функцию клонирования реального голоса, чтобы создавать подкасты с подражанием индивидуальным интонациям.
Краткий пересказ:
VibeVoice — новый open-source проект от Microsoft для преобразования текста в аудиоподкасты длительностью до 90 минут.
Система поддерживает до четырёх независимых голосов, значительно опережая аналогичные решения.
Доступны модели на 1,5 млрд и 7 млрд параметров, а в будущем выйдет версия на 0,5 млрд для работы в реальном времени.
Разработчики планируют добавить клонирование голоса и расширить набор поддерживаемых языков.