ElevenV3.info

Eleven v3: 不仅会说话,更能"演戏"

有史以来最具表现力和最真实的 AI 语音模型。Eleven v3 理解情感、打断和细微差别,为 70 多种语言带来真人般的表现。

探索功能

官方介绍

革命性的 AI 语音能力

70+ 种语言

从英语、中文到僧伽罗语和吉尔吉斯语,用母语般的语音覆盖全球受众。

动态对话

创建包含打断和重叠语音的自然、多说话人对话。

表现力控制

使用 [笑声] 或 [低语] 等音频标签来精确指导 AI 的表现。

文本到对话

从单段纯文本自动生成连贯的、多角色的对话。

V3 重大升级亮点

1. 无与伦比的情感真实感

注入逼真的情感、语调和音效。通过简单的音频标签,您可以引导声音从 [低语] 过渡到 [喊叫],添加 [笑声],甚至是深思熟虑的 [叹气]。创造真正身临其境的音频体验。

查看所有支持的标签 →

“她走进房间,[低语] '我有一个秘密。' 然后,无法抑制她的兴奋,她 [笑] 并说, '我们赢了!'"

说话人 A: "你听说发布会了吗?"
说话人 B: "v3 发布会?当然!我正要--"
说话人 A: "他们说这是迄今为止最真实的模型!"

2. 逼真的对话

告别生硬的、轮流进行的 AI 语音。V3 能够产出流畅的对话,说话者可以打断、抢话并实时做出反应,完美模仿人类互动的自然流程。

3. "文本到对话"的革命

这一强大的新模式能自动检测单个文本块中的不同角色和语调,并将其编织成无缝的对话。无需复杂的标签或脚本。非常适合音频剧、游戏角色和动态广告朗读。

只需粘贴您的脚本,让 AI 来分配角色、指导场景并生成完整配音的对话。

v3 vs v2: 一次飞跃

功能 Eleven v3 (Alpha) Eleven Multilingual v2
主要焦点 戏剧性表达与表演,情感范围 逼真、稳定和一致的质量
语言 70+ 29
表现力控制 通过音频标签(如 [笑声])实现全方位情感控制 基本控制(如停顿)
对话生成 原生多说话人 & 文本到对话 API 可能,但不够自然且无专用模式
最适用于 有声读物、角色配音和高度创造性的内容 长篇旁白、企业视频和多语言项目

即将为创作者和开发者推出

Eleven v3 的 API 即将推出,为您的应用程序、工具和创意项目解锁对世界上最先进语音模型的编程访问权限。

阅读 API 文档