核心用法
ElevenLabs TTS 是一款面向 OpenClaw 平台的文本转语音技能,核心能力围绕 ElevenLabs v3 模型 的情感音频标签系统展开。用户通过方括号标签(如 [excited]]、]、[whispers]]、]、[laughs]])直接控制语音的情绪、语速、音量和反应,无需复杂的 SSML 或后期处理。
典型工作流程:
1. 在 openclaw.json 配置 API Key 和语音参数
2. 使用音频标签编写带情感的文本(支持 70+ 语言,含希伯来语选择性元音标注)
3. 调用 tts 工具生成 MP3
4. 通过内置 audio_convert.py 转换为 Opus 格式(WhatsApp 兼容)
5. 使用 message 工具发送语音消息
进阶功能:长音频分段合成后拼接、多角色对话单条生成、唱歌模式(Creative 稳定性)。
显著优点
- 情感控制精准:v3 模型的音频标签系统是目前消费级 TTS 中最直观的情感控制方式,1-2 个标签即可实现从耳语到尖叫的动态变化
- 多语言深度优化:希伯来语支持选择性 nikud(元音点)标注,解决辅音文字发音歧义;70+ 语言均支持完整标签控制
- WhatsApp 原生适配:内置 Opus 转换工具解决跨平台兼容问题,支持 Android/iOS 双端播放及语音转文字
- 零后期制作:标签 + 标点组合可直接输出播客、有声书、游戏配音级别的成品音频
潜在缺点与局限性
- v3 非确定性输出:相同文本多次生成结果不同,需多次采样挑选,不适合需要严格一致性的场景
- 长度限制严格:>800 字符后音质下降,长内容需手动分段拼接,增加工作流复杂度
- 标签过度使用反效果:超过 2 个标签/句子会导致机械感,需要用户掌握"少即是多"的艺术
- PVC 语音不支持:个人语音克隆(PVC)未针对 v3 优化,仅 IVC/预制语音可用
- SSML 废弃:传统 break 标签完全不支持,迁移成本高
适合的目标群体
- 内容创作者:YouTube 配音、TikTok 短剧、播客制作,需要快速产出情感丰富的人声
- 多语言运营团队:跨境电商、国际社群运营,需批量生成本地化语音消息
- 教育工作者:语言学习材料制作,利用标签演示语调变化
- 开发者/产品经理:快速原型语音交互功能,验证对话流程
使用风险
- API 成本累积:ElevenLabs 按字符计费,长内容分段生成会显著增加调用次数
- 临时文件堆积:
audio_convert.py使用delete=False模式,异常退出时可能残留/tmp/tts-xxx//文件 - 情感标签误读:v3 对标签的响应因语音而异,需针对选定声音反复测试
- 数据隐私:文本内容发送至 ElevenLabs 云端,敏感信息(医疗、金融、个人身份)不应通过此技能处理