audio-gen

🎙️ AI 一键生成专业级有声内容

🥥2总安装量 1评分人数 1
100% 的用户推荐

基于 Claude AI 与 ElevenLabs TTS 的 AI 音频生成工具,一键制作有声书、播客及教育音频,支持多格式与语音效果,10分钟内容成本约$1.43。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无危险函数(eval/exec/system)或动态代码加载,代码结构安全规范
  • ✅ 输入边界完整:严格限制 2-30 分钟时长,防止资源滥用与异常请求
  • ⚠️ 依赖第三方 API 服务(ElevenLabs、Anthropic),需配置 API 密钥并承担服务稳定性风险
  • ⚠️ 音频内容需网络传输至 ElevenLabs 服务器处理,存在数据出境与隐私暴露可能
  • ✅ 使用安全临时目录 /tmp/ 存储文件,24 小时自动清理,无持久化敏感数据风险

使用说明

核心用法

audio-gen 是一款 AI 驱动的音频内容生成技能,用户只需提供主题或创意,系统即可自动完成脚本撰写与语音合成。支持三种内容格式:有声书(叙事风格,含情感深度与戏剧化停顿)、播客(对话式、温暖亲切)、教育内容(清晰讲解、循序渐进)。使用时,用户指定主题、时长(2-30分钟)与风格偏好,Claude 生成符合字数要求的脚本(按75词/分钟计算),经用户确认后调用 ElevenLabs API 合成 MP3 音频文件。

显著优点

全流程自动化:从创意到成品音频一站式完成,无需用户具备写作或音频制作技能。专业级输出质量:ElevenLabs eleven_multilingual_v2 模型提供接近真人水准的语音合成,支持 [whispers]、[excited] 等 SSML 语音效果增强表现力。灵活的内容控制:支持自定义时长、风格调性,提供脚本预览与修改环节,避免 API 浪费。清晰的成本透明:明确标注 10 分钟音频约 $1.43 成本(Claude $0.075 + ElevenLabs $1.35),便于预算规划。完善的边界处理:内置长度验证(150-2250词)、错误处理与重试机制,防止无效请求。

潜在缺点与局限性

单一声线限制:仅支持单一旁白声音,无法实现多角色对话或角色区分,戏剧化内容表现力受限。无音频后期能力:不支持背景音乐、音效叠加或混音,输出为纯人声干音。英文优化为主:虽 ElevenLabs 支持多语言,但脚本生成逻辑针对英语优化,其他语言效果可能打折。第三方服务依赖:核心功能依赖 ElevenLabs 与 Anthropic API,需持续付费且受服务商稳定性制约。30分钟硬性上限:超长内容需手动分集,无法一次性生成长篇有声书。

适合的目标群体

  • 内容创作者:快速验证播客创意、制作 demo 或填充内容库
  • 教育工作者:将教案转化为可听材料,支持多模态学习
  • 独立作者:低成本制作有声书原型或短篇作品
  • 企业培训:生成内部培训音频、产品讲解材料
  • 无障碍服务:为视障用户或偏好音频学习者提供内容替代方案

使用风险

成本累积风险:ElevenLabs 按字符计费,高频使用或长内容可能产生意外账单,建议设置用量监控。API 密钥管理:需妥善保管 ANTHROPIC_API_KEY 与 ELEVENLABS_API_KEY,避免泄露导致滥用。内容合规责任:AI 生成脚本的版权归属、事实准确性及敏感内容需用户自行审核,不宜直接用于商业发布。数据跨境传输:脚本内容需发送至 ElevenLabs 美国服务器处理,涉及数据出境合规考量。服务中断风险:任一 API 服务故障将导致功能不可用,无本地离线 fallback 方案。

audio-gen 内容

手动下载zip · 6.4 kB
SKILL.mdtext/markdown
请选择文件