local-stt

🎙️ 本地隐私优先的智能语音转录

🥥37总安装量 10评分人数 14
100% 的用户推荐

基于ONNX Runtime的本地语音转文本工具,支持Parakeet高精度英语识别与Whisper多语言快速转录,无需联网即可保障隐私安全。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无 eval/exec/system 等危险函数,代码注入风险为零
  • ✅ 依赖版本通过 PEP 723 严格锁定,无动态代码加载漏洞
  • ✅ 输入验证完善(click.Path 存在性检查 + click.Choice 枚举限制)
  • ✅ 临时文件使用 NamedTemporaryFile 并配备 try-finally 清理机制
  • ⚠️ T3 来源(个人开发者账号),建议关注后续更新维护情况

使用说明

核心用法

local-stt 是一款本地运行的语音转文本(STT)工具,通过 ONNX Runtime 实现高效推理,支持两种可选后端:

  • Parakeet(默认):专为英语优化,v2 版本提供最佳准确率,能正确捕捉专有名词和填充词;v3 版本扩展至多语言支持
  • Whisper:OpenAI 开源模型,推理速度最快,支持 99 种语言,提供 tiny/base/small/large-v3-turbo 四级模型可选

用户通过命令行直接调用,支持 -b 指定后端、-m 选择模型变体、、--no-int8 关闭量化以获得更高精度,,--quiet 静默模式适合脚本集成。工具同时提供 Matrix 房间消息发送的扩展能力。

显著优点

1. 完全本地运行:音频数据无需上传云端,从根本上杜绝隐私泄露风险,适合敏感场景
2. 双后端灵活选择:英语场景选 Parakeet 追求极致准确率,多语言或速度优先选 Whisper

3. INT8 量化加速:默认启用量化推理,Parakeet v2 处理 24 秒音频仅需 0.6 秒,实时率(RTF)低至 0.025x

4. 零配置开箱即用:依赖通过 PEP 723 锁定,模型首次自动从 HuggingFace 下载,无需手动部署

5. openclaw 原生集成:提供标准 JSON 配置模板,可直接嵌入自动化工作流

潜在缺点与局限性

  • 非流式处理:仅支持完整音频文件转录,无法满足实时语音输入场景
  • 环境依赖:强制要求 Python 3.12+ 和 ffmpeg 二进制文件,老旧系统兼容性受限
  • 模型体积:Whisper large-v3-turbo 等高质量模型占用显存/内存较大,边缘设备可能吃力
  • T3 来源风险:由个人开发者账号维护,长期更新稳定性存疑
  • Matrix 功能需额外配置:消息发送依赖环境变量手动设置,非全自动集成

适合的目标群体

  • 注重隐私的开发者与内容创作者(播客、访谈转录)
  • 需要离线 STT 能力的企业内网环境
  • openclaw/Matrix 生态用户,寻求语音理解自动化
  • 英语为主、偶尔多语言的中小团队

使用风险

  • 首次冷启动延迟:模型下载依赖 HuggingFace 连接,网络不畅时可能超时
  • ffmpeg 版本兼容性:不同系统 ffmpeg 编解码支持差异可能导致特定格式解析失败
  • 量化精度损失:INT8 模式虽快,但对低质量音频或口音较重内容的识别率可能下降
  • 临时文件清理:虽已实现 try-finally 保障,但异常中断时仍可能残留中间文件

local-stt 内容

文件夹图标scripts文件夹
手动下载zip · 3.8 kB
local-stt.pytext/plain
请选择文件