elevenlabs-tts

🎙️ 电影级情感语音合成引擎

🥥18总安装量 6评分人数 6
100% 的用户推荐

基于 ElevenLabs v3 引擎的多语言情感语音合成技能,支持 70+ 语言、希伯来语元音标注、多角色对话及 WhatsApp 语音消息生成,为内容创作者提供电影级配音能力。

S

安全性较高,可在多数场景中优先使用

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 代码结构清晰,使用 `subprocess.run()()` 列表参数形式,有效防止 shell 注入攻击
  • ✅ API Key 采用用户配置文件存储,无硬编码风险
  • ⚠️ 临时文件路径验证存在路径遍历风险(CWE-22),建议添加 `os.path.realpath()()` 规范化检查
  • ⚠️ 文本内容需发送至 ElevenLabs 云端 API,用户应避免传输敏感个人信息
  • ✅ 依赖仅涉及 Python 标准库和系统 ffmpeg,无已知高危第三方依赖

使用说明

核心用法

ElevenLabs TTS 是一款面向 OpenClaw 平台的文本转语音技能,核心能力围绕 ElevenLabs v3 模型 的情感音频标签系统展开。用户通过方括号标签(如 [excited]]、][whispers]]、][laughs]])直接控制语音的情绪、语速、音量和反应,无需复杂的 SSML 或后期处理。

典型工作流程
1. 在 openclaw.json 配置 API Key 和语音参数

2. 使用音频标签编写带情感的文本(支持 70+ 语言,含希伯来语选择性元音标注)

3. 调用 tts 工具生成 MP3

4. 通过内置 audio_convert.py 转换为 Opus 格式(WhatsApp 兼容)

5. 使用 message 工具发送语音消息

进阶功能:长音频分段合成后拼接、多角色对话单条生成、唱歌模式(Creative 稳定性)。

显著优点

  • 情感控制精准:v3 模型的音频标签系统是目前消费级 TTS 中最直观的情感控制方式,1-2 个标签即可实现从耳语到尖叫的动态变化
  • 多语言深度优化:希伯来语支持选择性 nikud(元音点)标注,解决辅音文字发音歧义;70+ 语言均支持完整标签控制
  • WhatsApp 原生适配:内置 Opus 转换工具解决跨平台兼容问题,支持 Android/iOS 双端播放及语音转文字
  • 零后期制作:标签 + 标点组合可直接输出播客、有声书、游戏配音级别的成品音频

潜在缺点与局限性

  • v3 非确定性输出:相同文本多次生成结果不同,需多次采样挑选,不适合需要严格一致性的场景
  • 长度限制严格:>800 字符后音质下降,长内容需手动分段拼接,增加工作流复杂度
  • 标签过度使用反效果:超过 2 个标签/句子会导致机械感,需要用户掌握"少即是多"的艺术
  • PVC 语音不支持:个人语音克隆(PVC)未针对 v3 优化,仅 IVC/预制语音可用
  • SSML 废弃:传统 break 标签完全不支持,迁移成本高

适合的目标群体

  • 内容创作者:YouTube 配音、TikTok 短剧、播客制作,需要快速产出情感丰富的人声
  • 多语言运营团队:跨境电商、国际社群运营,需批量生成本地化语音消息
  • 教育工作者:语言学习材料制作,利用标签演示语调变化
  • 开发者/产品经理:快速原型语音交互功能,验证对话流程

使用风险

  • API 成本累积:ElevenLabs 按字符计费,长内容分段生成会显著增加调用次数
  • 临时文件堆积audio_convert.py 使用 delete=False 模式,异常退出时可能残留 /tmp/tts-xxx// 文件
  • 情感标签误读:v3 对标签的响应因语音而异,需针对选定声音反复测试
  • 数据隐私:文本内容发送至 ElevenLabs 云端,敏感信息(医疗、金融、个人身份)不应通过此技能处理

elevenlabs-tts 内容

文件夹图标lib文件夹
文件夹图标references文件夹
手动下载zip · 10.7 kB
audio_convert.pytext/plain
请选择文件