audio-gen · COCOLOOP

使用说明

核心用法

audio-gen 是一款 AI 驱动的音频内容生成技能，用户只需提供主题或创意，系统即可自动完成脚本撰写与语音合成。支持三种内容格式：有声书（叙事风格，含情感深度与戏剧化停顿）、播客（对话式、温暖亲切）、教育内容（清晰讲解、循序渐进）。使用时，用户指定主题、时长（2-30分钟）与风格偏好，Claude 生成符合字数要求的脚本（按75词/分钟计算），经用户确认后调用 ElevenLabs API 合成 MP3 音频文件。

显著优点

全流程自动化：从创意到成品音频一站式完成，无需用户具备写作或音频制作技能。专业级输出质量：ElevenLabs eleven_multilingual_v2 模型提供接近真人水准的语音合成，支持 [whispers]、[excited] 等 SSML 语音效果增强表现力。灵活的内容控制：支持自定义时长、风格调性，提供脚本预览与修改环节，避免 API 浪费。清晰的成本透明：明确标注 10 分钟音频约 $1.43 成本（Claude $0.075 + ElevenLabs $1.35），便于预算规划。完善的边界处理：内置长度验证（150-2250词）、错误处理与重试机制，防止无效请求。

潜在缺点与局限性

单一声线限制：仅支持单一旁白声音，无法实现多角色对话或角色区分，戏剧化内容表现力受限。无音频后期能力：不支持背景音乐、音效叠加或混音，输出为纯人声干音。英文优化为主：虽 ElevenLabs 支持多语言，但脚本生成逻辑针对英语优化，其他语言效果可能打折。第三方服务依赖：核心功能依赖 ElevenLabs 与 Anthropic API，需持续付费且受服务商稳定性制约。30分钟硬性上限：超长内容需手动分集，无法一次性生成长篇有声书。

适合的目标群体

内容创作者：快速验证播客创意、制作 demo 或填充内容库
教育工作者：将教案转化为可听材料，支持多模态学习
独立作者：低成本制作有声书原型或短篇作品
企业培训：生成内部培训音频、产品讲解材料
无障碍服务：为视障用户或偏好音频学习者提供内容替代方案

使用风险

成本累积风险：ElevenLabs 按字符计费，高频使用或长内容可能产生意外账单，建议设置用量监控。API 密钥管理：需妥善保管 ANTHROPIC_API_KEY 与 ELEVENLABS_API_KEY，避免泄露导致滥用。内容合规责任：AI 生成脚本的版权归属、事实准确性及敏感内容需用户自行审核，不宜直接用于商业发布。数据跨境传输：脚本内容需发送至 ElevenLabs 美国服务器处理，涉及数据出境合规考量。服务中断风险：任一 API 服务故障将导致功能不可用，无本地离线 fallback 方案。

content-media productivity education-research automation api

audio-gen 内容

手动下载zip · 6.4 kB

SKILL.mdtext/markdown

请选择文件