protoss-voice · COCOLOOP

使用说明

核心用法

Protoss Voice 是一个音频后处理技能，而非 TTS 生成器。它通过调用 ffmpeg 和 sox 工具链，将任意输入音频（WAV/MP3/OGG 等）转换为具有"神族灵能"风格的特效音频。典型工作流为：先用 Kokoro 等 TTS 技能生成基础语音，再经本技能处理，最终输出带 _psionic.wav 后缀的文件。

处理链路包含四个阶段：格式统一转换（ffmpeg）、核心特效处理（sox 实现音高下移-200、反向混响、音量调整）、母带处理（低频增强+5dB、100Hz高通、-1dB 归一化）、最终编码输出。用户也可直接处理真人录音，实现 Zeratul、Artanis 等角色的声线模拟。

显著优点

1. 模块化设计：与 TTS 解耦，可叠加于任意语音源，灵活性极高
2. 零网络依赖：纯本地处理，无 API 调用成本与隐私泄露风险
3. 专业级音频链：基于成熟的 ffmpeg/sox 生态，效果稳定可预期
4. 自动化集成：支持 Agent 工作流自动串联，从生成到发送全程无人值守

潜在缺点与局限性

依赖外部二进制：需用户预装 ffmpeg 和 sox，跨平台部署存在环境差异
无输入校验：当前版本未对文件路径做严格过滤，存在命令注入理论风险
特效单一：仅提供固定"V9 Massive Void"预设，不支持参数微调或自定义效果链
输出格式受限：默认输出 WAV，需额外调用 ffmpeg 转码为 OGG 等适合即时通讯的格式

适合的目标群体

游戏内容创作者（星际争霸同人配音、角色扮演视频）
AI 角色扮演应用开发者（需构建特定种族/阵营声线）
播客与有声书制作（科幻题材的声音设计）
语音聊天机器人增强（Discord/Telegram 等平台的趣味交互）

使用风险

供应链风险：ffmpeg/sox 若从非官方渠道安装，可能引入恶意二进制
路径注入：恶意构造的输入文件名可能触发 shell 元字符解析
临时文件残留：虽已实现 finally 块清理，但异常中断时仍可能遗留隐藏文件
性能瓶颈：长音频的 sox 混响处理计算密集，大文件可能出现显著延迟

content-media audio-processing automation entertainment gaming

protoss-voice 内容

手动下载zip · 3.5 kB

protoss_fx.pytext/plain

请选择文件