acestep-lyrics-transcription

使用说明

核心用法

该 Skill 通过调用 OpenAI Whisper 或 ElevenLabs Scribe API，将音频文件转录为带时间戳的歌词文件。用户需先配置 API 密钥，然后通过命令行工具执行转录操作，支持输出 LRC、SRT 或 JSON 三种格式。特别针对音乐歌词场景优化，提供词级时间戳精度。转录完成后，系统强制要求人工校对步骤，以修正专有名词、同音词等常见识别错误，确保最终歌词准确性后方可用于 MV 渲染。

显著优点

首先，双引擎支持提供灵活性，用户可根据需求选择 OpenAI（whisper-1）或 ElevenLabs（scribe_v2），两者均支持多语言识别和词级时间戳，且 ElevenLabs 提供免费额度入门。其次，输出格式丰富，覆盖 LRC（歌词）、SRT（字幕）、JSON（数据）三种主流格式，适配不同应用场景。第三，安全设计完善，API 密钥本地存储且自动脱敏显示为 ***，脚本无危险函数，权限申请（Read/Write/Bash）精准匹配功能需求。第四，工作流程规范，强制要求转录后人工校对，有效避免 AI 幻觉导致的歌词错误影响后续制作。

潜在缺点或局限性

主要依赖外部商业 API，需用户自行承担调用费用（OpenAI 约 $0.006/分钟）并管理 API 密钥。音频文件必须上传至第三方服务器处理，存在数据隐私顾虑，不适合处理高度敏感或机密内容。转录准确性虽高但仍需人工校对，无法完全自动化，增加了人力成本。此外，功能仅限音频转录，不包含音频编辑或视频处理功能，且在网络连接不稳定时无法使用。

适合的目标群体

音乐视频制作人、字幕组工作者、音乐创作者、语言学习者以及需要将音频内容结构化的时间轴编辑者。特别适合需要为歌曲制作精准 LRC 歌词文件，或需要为多语言视频生成 SRT 字幕的内容创作者。也适用于研究人员处理音频访谈转录，但需注意数据隐私合规性，避免处理涉密内容。

使用风险

性能风险：转录速度取决于音频时长和 API 响应时间，长音频可能耗时较长且受网络波动影响。成本风险：持续使用会产生 API 调用费用，需监控使用量避免超额。依赖性风险：服务可用性完全依赖 OpenAI/ElevenLabs 的 API 稳定性，存在单点故障可能。数据隐私风险：音频内容需上传至第三方服务器，虽两家服务商均有隐私政策，但仍需谨慎处理敏感内容，避免上传机密音频。配置风险：错误的 API 密钥配置会导致服务无法使用，需妥善保管密钥避免泄露，建议定期轮换密钥。

content-media transcription api productivity audio-processing

acestep-lyrics-transcription 内容

scripts文件夹

手动下载zip · 8.0 kB

acestep-lyrics-transcription.shtext/x-shellscript

请选择文件