Главные Новости

Новая модель озвучки текста с максимальной выразительностью

Технологии Кино
ElevenLabs представила Eleven v3 (alpha): новая модель озвучки текста с максимальной выразительностью

Компания ElevenLabs анонсировала выход новой версии своей текст-в-речь технологии — Eleven v3 (в стадии alpha). Это самая выразительная модель озвучки текста на сегодняшний день. Она не просто "читает", а интерпретирует — с интонацией, эмоциями и паузами, приближая синтетическую речь к уровню профессионального актёрского исполнения.

Ключевые особенности Eleven v3:

  • Поддержка 70+ языков, что делает модель по-настоящему глобальной.
  • Возможность генерировать реалистичные диалоги с несколькими голосами, включая переходы между ними в рамках одного аудиофрагмента.
  • Новая архитектура позволяет лучше понимать контекст и смысл текста, благодаря чему речь звучит живо и динамично.
  • Поддержка аудио-тегов — специальных меток, которые задают интонацию, эмоции и даже поведение диктора.

Среди доступных тегов:

  • Эмоции: [sad], [angry], [happily]
  • Подача: [whispers], [shouts]
  • Реакции: [laughs], [sighs], [clears throat]

Благодаря этим тегам пользователи могут буквально "режиссировать" речь: создавать сцены с напряжением, юмором или драмой, а также управлять паузами и динамикой произнесения.

ElevenLabs также подчёркивает, что модель хорошо распознаёт эмоциональные переходы — способна менять тональность внутри одного фрагмента, в зависимости от содержания текста и указанных тегов. Это открывает возможности для более реалистичного озвучивания книг, видеороликов, диалогов в играх и голосовых ассистентов.

В данный момент Eleven v3 доступна в альфа-версии и предназначена для ознакомления и тестирования сообществом. Платформа продолжит обновляться, включая новые функции и улучшения в интерпретации речи.