Новая модель озвучки текста с максимальной выразительностью

ElevenLabs представила Eleven v3 (alpha): новая модель озвучки текста с максимальной выразительностью

Компания ElevenLabs анонсировала выход новой версии своей текст-в-речь технологии — Eleven v3 (в стадии alpha). Это самая выразительная модель озвучки текста на сегодняшний день. Она не просто "читает", а интерпретирует — с интонацией, эмоциями и паузами, приближая синтетическую речь к уровню профессионального актёрского исполнения.

Ключевые особенности Eleven v3:

Поддержка 70+ языков, что делает модель по-настоящему глобальной.
Возможность генерировать реалистичные диалоги с несколькими голосами, включая переходы между ними в рамках одного аудиофрагмента.
Новая архитектура позволяет лучше понимать контекст и смысл текста, благодаря чему речь звучит живо и динамично.
Поддержка аудио-тегов — специальных меток, которые задают интонацию, эмоции и даже поведение диктора.

Среди доступных тегов:

Эмоции: [sad], [angry], [happily]
Подача: [whispers], [shouts]
Реакции: [laughs], [sighs], [clears throat]

Благодаря этим тегам пользователи могут буквально "режиссировать" речь: создавать сцены с напряжением, юмором или драмой, а также управлять паузами и динамикой произнесения.

ElevenLabs также подчёркивает, что модель хорошо распознаёт эмоциональные переходы — способна менять тональность внутри одного фрагмента, в зависимости от содержания текста и указанных тегов. Это открывает возможности для более реалистичного озвучивания книг, видеороликов, диалогов в играх и голосовых ассистентов.

В данный момент Eleven v3 доступна в альфа-версии и предназначена для ознакомления и тестирования сообществом. Платформа продолжит обновляться, включая новые функции и улучшения в интерпретации речи.