MiniMax Speech 2.5: загрузите свой голос — получите озвучку на 40 языках

Разработчики MiniMax запустили MiniMax Speech 2.5, новую версию платформы синтеза речи, которая позволяет в несколько кликов загрузить любой аудиофайл с образцом голоса и получить полностью сгенерированный новый текст, звучащий этим же голосом. Система не только копирует тембр, но и передаёт акцент, манеру речи и эмоциональные оттенки, делая клон практически неотличимым от оригинала.

В основе Speech 2.5 — усовершенствованный движок, обеспечивающий три ключевых улучшения:

Многоязычная поддержка — более 40 языков, включая китайский, английский, испанский, шведский, греческий, финский и другие. Алгоритм распознаёт и воспроизводит уникальные интонационные особенности каждого языка, что особенно важно для профессиональной локализации.
Повышенная точность клонирования — система сохраняет мелкие нюансы речи: дыхание, паузы, ритм, региональные особенности произношения. Это позволяет, например, воспроизвести британский «королевский» английский или мягкий южноамериканский испанский с высокой достоверностью.
Улучшенное качество синтеза — устранён «роботизированный» эффект, характерный для многих TTS-систем. Речь звучит плавно и естественно как в повседневных диалогах, так и в студийной дикторской подаче.

Для обработки достаточно загрузить 10–20 секунд исходного голоса. После этого можно вводить любой текст, а модель сгенерирует озвучку на исходном или любом из доступных языков, сохранив тембр и характер речи. Поддерживается кросс-лингвальное клонирование: голос, записанный на итальянском, сможет без потери узнаваемости произносить тексты на английском или японском.

Области применения:

Бизнес — мультиязычные рекламные кампании и озвучка презентаций без привлечения дикторов.
Создатели контента — создание видеороликов и подкастов для международной аудитории.
Образование — подготовка учебных материалов с аутентичным произношением для редких языков.

Пример озвучки с помощью MiniMax Speach голосом журналиста Бората Сагдиева

Кроме синтеза речи, MiniMax Speech 2.5 умеет делать и музыку — можно сгенерировать простые песни и мелодии или фоновые треки для роликов. Однако, стоит признать, что в этой области модель пока скорее «первокурсник музыкального училища», чем маэстро. До уровня таких специализированных платформ, как Suno, ей ещё очень и очень далеко: гармонии простые, аранжировки минималистичны, и для серьёзного музыкального продакшена всё же придётся обратиться к более продвинутым решениям.