acestep-lyrics-transcription

🎵 AI 音频转录与字幕生成专家

🥥54总安装量 14评分人数 17
100% 的用户推荐

基于 OpenAI Whisper/ElevenLabs Scribe API 的专业音频转录工具,可将歌曲精准转换为 LRC/SRT 格式时间戳歌词,支持多语言识别与词级精度,为音乐视频制作提供高效字幕生成方案。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec 等危险函数,无 SQL 注入或命令注入漏洞
  • ✅ API 密钥本地加密存储,显示时自动脱敏(mask 为 ***),隐私保护机制完善
  • ✅ 权限申请精准匹配功能需求(Read/Write/Bash),无过度授权或敏感权限申请
  • ⚠️ 音频文件需上传至第三方 API(OpenAI/ElevenLabs)进行处理,存在数据外传风险
  • ⚠️ 依赖外部网络服务可用性,需用户自行配置并妥善保管 API 密钥

使用说明

核心用法

该 Skill 通过调用 OpenAI Whisper 或 ElevenLabs Scribe API,将音频文件转录为带时间戳的歌词文件。用户需先配置 API 密钥,然后通过命令行工具执行转录操作,支持输出 LRC、SRT 或 JSON 三种格式。特别针对音乐歌词场景优化,提供词级时间戳精度。转录完成后,系统强制要求人工校对步骤,以修正专有名词、同音词等常见识别错误,确保最终歌词准确性后方可用于 MV 渲染。

显著优点

首先,双引擎支持提供灵活性,用户可根据需求选择 OpenAI(whisper-1)或 ElevenLabs(scribe_v2),两者均支持多语言识别和词级时间戳,且 ElevenLabs 提供免费额度入门。其次,输出格式丰富,覆盖 LRC(歌词)、SRT(字幕)、JSON(数据)三种主流格式,适配不同应用场景。第三,安全设计完善,API 密钥本地存储且自动脱敏显示为 ***,脚本无危险函数,权限申请(Read/Write/Bash)精准匹配功能需求。第四,工作流程规范,强制要求转录后人工校对,有效避免 AI 幻觉导致的歌词错误影响后续制作。

潜在缺点或局限性

主要依赖外部商业 API,需用户自行承担调用费用(OpenAI 约 $0.006/分钟)并管理 API 密钥。音频文件必须上传至第三方服务器处理,存在数据隐私顾虑,不适合处理高度敏感或机密内容。转录准确性虽高但仍需人工校对,无法完全自动化,增加了人力成本。此外,功能仅限音频转录,不包含音频编辑或视频处理功能,且在网络连接不稳定时无法使用。

适合的目标群体

音乐视频制作人、字幕组工作者、音乐创作者、语言学习者以及需要将音频内容结构化的时间轴编辑者。特别适合需要为歌曲制作精准 LRC 歌词文件,或需要为多语言视频生成 SRT 字幕的内容创作者。也适用于研究人员处理音频访谈转录,但需注意数据隐私合规性,避免处理涉密内容。

使用风险

性能风险:转录速度取决于音频时长和 API 响应时间,长音频可能耗时较长且受网络波动影响。成本风险:持续使用会产生 API 调用费用,需监控使用量避免超额。依赖性风险:服务可用性完全依赖 OpenAI/ElevenLabs 的 API 稳定性,存在单点故障可能。数据隐私风险:音频内容需上传至第三方服务器,虽两家服务商均有隐私政策,但仍需谨慎处理敏感内容,避免上传机密音频。配置风险:错误的 API 密钥配置会导致服务无法使用,需妥善保管密钥避免泄露,建议定期轮换密钥。

acestep-lyrics-transcription 内容

文件夹图标scripts文件夹
手动下载zip · 8.0 kB
acestep-lyrics-transcription.shtext/x-shellscript
请选择文件