speech-to-text

🎙️ 企业级音频转录与字幕生成工具

🥥62总安装量 17评分人数 13
100% 的用户推荐

基于 inference.sh Whisper 模型,提供高精度语音转文字服务,支持多语言翻译与时间戳,快速生成会议记录与字幕。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无实际可执行代码,无 eval/exec 等危险函数,无动态代码加载风险
  • ✅ 无静默数据收集逻辑,所有数据处理均在用户主动调用的外部 CLI 中完成,内容透明可审计
  • ✅ 权限申请 `Bash(infsh *)` 与功能描述完全匹配,无非必要权限申请
  • ⚠️ 来源为个人开发者账号(T3),虽经检查无安全问题,但长期维护与更新稳定性需关注
  • ⚠️ 功能依赖外部 CLI 工具(infsh),音频数据需上传至 inference.sh 第三方服务,处理敏感内容时需谨慎评估隐私风险

使用说明

该技能通过封装 inference.sh CLI 工具,为用户提供基于 OpenAI Whisper 模型的企业级语音转文字解决方案。核心用法极其简洁:用户只需通过 infsh app run 命令传入音频 URL,即可调用 Fast Whisper Large V3(快速版)或 Whisper V3 Large(高精度版)模型完成转录。支持基础转录、带时间戳分段、99种语言自动识别以及非英语音频到英语的翻译功能,并可与视频音频提取、字幕生成等工具链集成,实现从视频到字幕的完整工作流。

显著优点包括:首先,背靠 inference.sh 成熟的 AI 推理平台,模型性能稳定可靠;其次,提供双模型策略,用户可在速度与精度间灵活选择;再者,原生支持时间戳输出与翻译功能,满足字幕制作与跨国会议需求;最后,与视频处理技能无缝衔接,支持从视频提取音频到生成字幕的自动化流程。

潜在缺点与局限性不容忽视:该技能本质上为文档型封装,完全依赖外部 infsh CLI 工具,若 inference.sh 服务中断或 CLI 工具变更,功能将失效;所有音频数据需上传至第三方云端处理,对敏感内容存在隐私风险;作为纯文档实现,缺乏本地缓存或离线能力;且当前由个人开发者维护(T3来源),长期维护稳定性存疑。

适合目标群体包括:需要快速生成会议纪要的企业行政人员、制作播客与视频字幕的内容创作者、处理采访录音的记者与研究人员,以及需要音频内容无障碍化的 accessibility 从业者。

使用风险主要涉及:数据隐私方面,音频文件需上传至 inference.sh 服务器,敏感商业或私人内容存在泄露风险;性能依赖网络连接质量与第三方服务稳定性;此外,示例代码中包含 curl 下载脚本,用户需自行验证 https://cli.inference.sh 的可信度,避免供应链攻击。

speech-to-text 内容

手动下载zip · 1.8 kB
SKILL.mdtext/markdown
请选择文件