核心用法
local-stt 是一款本地运行的语音转文本(STT)工具,通过 ONNX Runtime 实现高效推理,支持两种可选后端:
- Parakeet(默认):专为英语优化,v2 版本提供最佳准确率,能正确捕捉专有名词和填充词;v3 版本扩展至多语言支持
- Whisper:OpenAI 开源模型,推理速度最快,支持 99 种语言,提供 tiny/base/small/large-v3-turbo 四级模型可选
用户通过命令行直接调用,支持 -b 指定后端、-m 选择模型变体、、--no-int8 关闭量化以获得更高精度,,--quiet 静默模式适合脚本集成。工具同时提供 Matrix 房间消息发送的扩展能力。
显著优点
1. 完全本地运行:音频数据无需上传云端,从根本上杜绝隐私泄露风险,适合敏感场景
2. 双后端灵活选择:英语场景选 Parakeet 追求极致准确率,多语言或速度优先选 Whisper
3. INT8 量化加速:默认启用量化推理,Parakeet v2 处理 24 秒音频仅需 0.6 秒,实时率(RTF)低至 0.025x
4. 零配置开箱即用:依赖通过 PEP 723 锁定,模型首次自动从 HuggingFace 下载,无需手动部署
5. openclaw 原生集成:提供标准 JSON 配置模板,可直接嵌入自动化工作流
潜在缺点与局限性
- 非流式处理:仅支持完整音频文件转录,无法满足实时语音输入场景
- 环境依赖:强制要求 Python 3.12+ 和 ffmpeg 二进制文件,老旧系统兼容性受限
- 模型体积:Whisper large-v3-turbo 等高质量模型占用显存/内存较大,边缘设备可能吃力
- T3 来源风险:由个人开发者账号维护,长期更新稳定性存疑
- Matrix 功能需额外配置:消息发送依赖环境变量手动设置,非全自动集成
适合的目标群体
- 注重隐私的开发者与内容创作者(播客、访谈转录)
- 需要离线 STT 能力的企业内网环境
- openclaw/Matrix 生态用户,寻求语音理解自动化
- 英语为主、偶尔多语言的中小团队
使用风险
- 首次冷启动延迟:模型下载依赖 HuggingFace 连接,网络不畅时可能超时
- ffmpeg 版本兼容性:不同系统 ffmpeg 编解码支持差异可能导致特定格式解析失败
- 量化精度损失:INT8 模式虽快,但对低质量音频或口音较重内容的识别率可能下降
- 临时文件清理:虽已实现 try-finally 保障,但异常中断时仍可能残留中间文件