local-stt · COCOLOOP

使用说明

核心用法

local-stt 是一款本地运行的语音转文本（STT）工具，通过 ONNX Runtime 实现高效推理，支持两种可选后端：

Parakeet（默认）：专为英语优化，v2 版本提供最佳准确率，能正确捕捉专有名词和填充词；v3 版本扩展至多语言支持
Whisper：OpenAI 开源模型，推理速度最快，支持 99 种语言，提供 tiny/base/small/large-v3-turbo 四级模型可选

用户通过命令行直接调用，支持 -b 指定后端、-m 选择模型变体、、--no-int8 关闭量化以获得更高精度，，--quiet 静默模式适合脚本集成。工具同时提供 Matrix 房间消息发送的扩展能力。

显著优点

1. 完全本地运行：音频数据无需上传云端，从根本上杜绝隐私泄露风险，适合敏感场景
2. 双后端灵活选择：英语场景选 Parakeet 追求极致准确率，多语言或速度优先选 Whisper
3. INT8 量化加速：默认启用量化推理，Parakeet v2 处理 24 秒音频仅需 0.6 秒，实时率（RTF）低至 0.025x
4. 零配置开箱即用：依赖通过 PEP 723 锁定，模型首次自动从 HuggingFace 下载，无需手动部署
5. openclaw 原生集成：提供标准 JSON 配置模板，可直接嵌入自动化工作流

潜在缺点与局限性

非流式处理：仅支持完整音频文件转录，无法满足实时语音输入场景
环境依赖：强制要求 Python 3.12+ 和 ffmpeg 二进制文件，老旧系统兼容性受限
模型体积：Whisper large-v3-turbo 等高质量模型占用显存/内存较大，边缘设备可能吃力
T3 来源风险：由个人开发者账号维护，长期更新稳定性存疑
Matrix 功能需额外配置：消息发送依赖环境变量手动设置，非全自动集成

适合的目标群体

注重隐私的开发者与内容创作者（播客、访谈转录）
需要离线 STT 能力的企业内网环境
openclaw/Matrix 生态用户，寻求语音理解自动化
英语为主、偶尔多语言的中小团队

使用风险

首次冷启动延迟：模型下载依赖 HuggingFace 连接，网络不畅时可能超时
ffmpeg 版本兼容性：不同系统 ffmpeg 编解码支持差异可能导致特定格式解析失败
量化精度损失：INT8 模式虽快，但对低质量音频或口音较重内容的识别率可能下降
临时文件清理：虽已实现 try-finally 保障，但异常中断时仍可能残留中间文件

content-media productivity automation privacy ai-ml offline

local-stt 内容

scripts文件夹

手动下载zip · 3.8 kB

local-stt.pytext/plain

请选择文件