openai-whisper-api

☁️ 云端极速语音转文字

🥥71总安装量 25评分人数 33
100% 的用户推荐

基于 OpenAI Whisper 官方 API 的音频转录工具,通过 curl 实现语音转文字,支持多语言识别与自定义提示词。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ⚠️ 音频文件需上传至 OpenAI 第三方服务器,存在数据隐私泄露风险
  • ⚠️ `--prompt` 参数未做严格过滤,存在潜在的命令注入风险
  • ✅ API Key 通过环境变量管理,无硬编码密钥问题
  • ✅ 具备基础错误处理机制,使用 `set -euo pipefail` 增强脚本健壮性
  • ⚠️ 依赖外部网络服务可用性,存在服务中断风险

使用说明

核心用法

openai-whisper-api 是一个轻量级的音频转录 Skill,通过调用 OpenAI 官方的 /v1/audio/transcriptions 端点实现语音转文字功能。用户只需执行 transcribe.sh 脚本并传入音频文件路径,即可快速获得转录结果。默认使用 whisper-1 模型,输出为纯文本格式,同时支持 JSON 输出以便后续处理。

该 Skill 提供了丰富的命令行选项:可通过 --model 指定模型版本,,--language 设置源语言,,--prompt 提供上下文提示以提升特定术语识别准确率,,--json 获取结构化输出。配置方式灵活,既支持环境变量 OPENAI_API_KEY,也支持通过 ~/.clawdbot/clawdbot.json 进行持久化配置。

显著优点

极简部署:仅依赖系统自带的 curl 工具,无需安装 Python 环境或下载庞大的 Whisper 本地模型,极大降低了使用门槛。

云端算力:利用 OpenAI 云端 GPU 资源,转录速度快且准确率高,无需担心本地硬件性能瓶颈。

官方背书:直接对接 OpenAI 官方 API,模型版本与能力持续更新,无需手动维护模型文件。

成本可控:按实际使用量付费,对于低频用户比自建本地服务更经济。

潜在缺点与局限性

数据隐私顾虑:音频文件必须上传至 OpenAI 服务器处理,涉及敏感内容的场景存在合规风险,无法满足完全离线处理需求。

网络依赖:强依赖外部网络连接和 OpenAI 服务可用性,无法在内网或断网环境使用。

功能边界:不支持实时流式转录,仅适用于录制完成的音频文件;不支持说话人分离等高级功能。

成本累积:高频使用场景下,API 调用费用可能超过本地部署方案。

适合的目标群体

  • 需要快速搭建语音转文字能力的开发者与运维人员
  • 内容创作者、播客制作者、记者等需要整理采访录音的媒体工作者
  • 企业行政人员处理会议纪要的办公场景
  • 对数据隐私要求不敏感、追求开箱即用体验的个人用户

使用风险

性能风险:大文件上传受网络带宽限制,超时可能导致转录失败;API 速率限制可能影响批量处理效率。

依赖风险:curl 版本过旧可能不支持某些 TLS 特性;OpenAI API 变更或定价调整可能影响服务连续性。

成本风险:未设置用量监控可能导致意外高额账单;长音频文件按分钟计费成本累积较快。

配置风险:API Key 若配置不当可能泄露,建议配合密钥管理工具使用。

openai-whisper-api 内容

scripts文件夹
手动下载zip · 1.7 kB
transcribe.shtext/x-shellscript
请选择文件