openai-whisper-api

使用说明

核心用法

openai-whisper-api 是一个轻量级的音频转录 Skill，通过调用 OpenAI 官方的 /v1/audio/transcriptions 端点实现语音转文字功能。用户只需执行 transcribe.sh 脚本并传入音频文件路径，即可快速获得转录结果。默认使用 whisper-1 模型，输出为纯文本格式，同时支持 JSON 输出以便后续处理。

该 Skill 提供了丰富的命令行选项：可通过 --model 指定模型版本，，--language 设置源语言，，--prompt 提供上下文提示以提升特定术语识别准确率，，--json 获取结构化输出。配置方式灵活，既支持环境变量 OPENAI_API_KEY，也支持通过 ~/.clawdbot/clawdbot.json 进行持久化配置。

显著优点

极简部署：仅依赖系统自带的 curl 工具，无需安装 Python 环境或下载庞大的 Whisper 本地模型，极大降低了使用门槛。

云端算力：利用 OpenAI 云端 GPU 资源，转录速度快且准确率高，无需担心本地硬件性能瓶颈。

官方背书：直接对接 OpenAI 官方 API，模型版本与能力持续更新，无需手动维护模型文件。

成本可控：按实际使用量付费，对于低频用户比自建本地服务更经济。

潜在缺点与局限性

数据隐私顾虑：音频文件必须上传至 OpenAI 服务器处理，涉及敏感内容的场景存在合规风险，无法满足完全离线处理需求。

网络依赖：强依赖外部网络连接和 OpenAI 服务可用性，无法在内网或断网环境使用。

功能边界：不支持实时流式转录，仅适用于录制完成的音频文件；不支持说话人分离等高级功能。

成本累积：高频使用场景下，API 调用费用可能超过本地部署方案。

适合的目标群体

需要快速搭建语音转文字能力的开发者与运维人员
内容创作者、播客制作者、记者等需要整理采访录音的媒体工作者
企业行政人员处理会议纪要的办公场景
对数据隐私要求不敏感、追求开箱即用体验的个人用户

使用风险

性能风险：大文件上传受网络带宽限制，超时可能导致转录失败；API 速率限制可能影响批量处理效率。

依赖风险：curl 版本过旧可能不支持某些 TLS 特性；OpenAI API 变更或定价调整可能影响服务连续性。

成本风险：未设置用量监控可能导致意外高额账单；长音频文件按分钟计费成本累积较快。

配置风险：API Key 若配置不当可能泄露，建议配合密钥管理工具使用。

content-media api productivity automation docs

openai-whisper-api 内容

▤ scripts文件夹

手动下载zip · 1.7 kB

transcribe.shtext/x-shellscript

请选择文件