Eleven v3: 不仅会说话，更能"演戏"

有史以来最具表现力和最真实的 AI 语音模型。Eleven v3 理解情感、打断和细微差别，为 70 多种语言带来真人般的表现。

官方介绍

从英语、中文到僧伽罗语和吉尔吉斯语，用母语般的语音覆盖全球受众。

创建包含打断和重叠语音的自然、多说话人对话。

使用 [笑声] 或 [低语] 等音频标签来精确指导 AI 的表现。

从单段纯文本自动生成连贯的、多角色的对话。

注入逼真的情感、语调和音效。通过简单的音频标签，您可以引导声音从 [低语] 过渡到 [喊叫]，添加 [笑声]，甚至是深思熟虑的 [叹气]。创造真正身临其境的音频体验。

查看所有支持的标签 →

“她走进房间，[低语] '我有一个秘密。' 然后，无法抑制她的兴奋，她 [笑] 并说, '我们赢了!'"

说话人 A: "你听说发布会了吗？"
说话人 B: "v3 发布会？当然！我正要--"
说话人 A: "他们说这是迄今为止最真实的模型！"

告别生硬的、轮流进行的 AI 语音。V3 能够产出流畅的对话，说话者可以打断、抢话并实时做出反应，完美模仿人类互动的自然流程。

这一强大的新模式能自动检测单个文本块中的不同角色和语调，并将其编织成无缝的对话。无需复杂的标签或脚本。非常适合音频剧、游戏角色和动态广告朗读。

只需粘贴您的脚本，让 AI 来分配角色、指导场景并生成完整配音的对话。

Eleven v3 的 API 即将推出，为您的应用程序、工具和创意项目解锁对世界上最先进语音模型的编程访问权限。