Eleven v3: 不仅会说话,更能"演戏"
有史以来最具表现力和最真实的 AI 语音模型。Eleven v3 理解情感、打断和细微差别,为 70 多种语言带来真人般的表现。
探索功能官方介绍
革命性的 AI 语音能力
70+ 种语言
从英语、中文到僧伽罗语和吉尔吉斯语,用母语般的语音覆盖全球受众。
动态对话
创建包含打断和重叠语音的自然、多说话人对话。
表现力控制
使用 [笑声] 或 [低语] 等音频标签来精确指导 AI 的表现。
文本到对话
从单段纯文本自动生成连贯的、多角色的对话。
V3 重大升级亮点
1. 无与伦比的情感真实感
注入逼真的情感、语调和音效。通过简单的音频标签,您可以引导声音从 [低语]
过渡到 [喊叫]
,添加 [笑声]
,甚至是深思熟虑的 [叹气]
。创造真正身临其境的音频体验。
“她走进房间,[低语] '我有一个秘密。' 然后,无法抑制她的兴奋,她 [笑] 并说, '我们赢了!'"
说话人 A: "你听说发布会了吗?"
说话人 B: "v3 发布会?当然!我正要--"
说话人 A: "他们说这是迄今为止最真实的模型!"
2. 逼真的对话
告别生硬的、轮流进行的 AI 语音。V3 能够产出流畅的对话,说话者可以打断、抢话并实时做出反应,完美模仿人类互动的自然流程。
3. "文本到对话"的革命
这一强大的新模式能自动检测单个文本块中的不同角色和语调,并将其编织成无缝的对话。无需复杂的标签或脚本。非常适合音频剧、游戏角色和动态广告朗读。
只需粘贴您的脚本,让 AI 来分配角色、指导场景并生成完整配音的对话。
v3 vs v2: 一次飞跃
功能 | Eleven v3 (Alpha) | Eleven Multilingual v2 |
---|---|---|
主要焦点 | 戏剧性表达与表演,情感范围 | 逼真、稳定和一致的质量 |
语言 | 70+ | 29 |
表现力控制 | 通过音频标签(如 [笑声])实现全方位情感控制 | 基本控制(如停顿) |
对话生成 | 原生多说话人 & 文本到对话 API | 可能,但不够自然且无专用模式 |
最适用于 | 有声读物、角色配音和高度创造性的内容 | 长篇旁白、企业视频和多语言项目 |
即将为创作者和开发者推出
Eleven v3 的 API 即将推出,为您的应用程序、工具和创意项目解锁对世界上最先进语音模型的编程访问权限。
阅读 API 文档