mlx-stt

🎙️ Apple Silicon 本地语音转文字

🥥68总安装量 17评分人数 21
100% 的用户推荐

基于 Apple MLX 的本地语音识别工具,无需 API 密钥,在 Apple Silicon Mac 上实现隐私安全的离线音频转录。

B

存在边界风险,建议在隔离环境中验证

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 本地处理音频数据,无上传云端风险,隐私性极佳
  • ✅ 无 eval/exec 等危险函数,无硬编码敏感信息
  • ⚠️ 音频路径参数缺乏严格输入验证,存在路径遍历潜在风险
  • ⚠️ 使用 `rm -rf` 清理临时目录,变量异常可能导致意外删除
  • ⚠️ 依赖安装使用 `--force` 和 `--prerelease=allow` 标志,版本可能不稳定

使用说明

核心用法

MLX STT 是一款专为 Apple Silicon Mac 设计的本地语音识别工具。用户通过简单的命令行调用 bash mlx-stt.sh <audio_file_path> 即可将音频文件转换为文本。工具基于 Apple 的 MLX 深度学习框架,默认采用 GLM-ASR-Nano-2512 开源模型,首次运行时会自动从 Hugging Face 的 mlx-community 下载模型文件。安装脚本会自动通过 Homebrew 安装 ffmpeg、uv 等依赖,确保环境就绪。

显著优点

最大的优点是隐私安全。所有音频处理均在本地完成,无需上传至云端服务器,也不需要注册 API 密钥,彻底避免了数据泄露风险。其次是成本优势,完全免费使用开源模型,没有按量计费或订阅费用。技术层面,依托 Apple Silicon 的神经网络引擎,推理效率高且能耗低。此外,工具支持多种音频格式(通过 ffmpeg 自动转换),使用门槛极低,适合非技术用户。

潜在缺点与局限性

平台限制是首要局限,仅支持配备 Apple Silicon 的 macOS 设备,Intel Mac 和 Windows/Linux 用户无法使用。其次是首次启动成本,初次使用需下载约数百 MB 的模型文件,在网络不佳环境下体验较差。功能上目前仅为离线批处理工具,不支持实时语音识别流式传输。此外,输入验证机制较为简单,缺乏对恶意构造路径的严格检查。

适合的目标群体

特别适合对隐私极度敏感的用户,如律师、医生、记者等需要处理机密音频资料的专业人士。同时适合追求成本效益的创作者,如播客制作人、视频字幕工作者,需要批量处理音频转录且不希望支付 API 费用。也是离线环境工作者的理想选择,如在无网络或网络受限环境下需要语音转文字的用户。

使用风险

主要风险集中在输入验证不足,若提供恶意构造的文件路径(如包含 ../ 的路径遍历),可能导致未授权文件访问。依赖管理方面,安装脚本使用 --force--prerelease=allow 标志,可能引入未经充分测试的依赖版本。文件操作风险在于 rm -rf 删除临时目录时,若环境变量异常可能导致意外删除重要文件(尽管脚本使用了 set -u 提供部分保护)。此外,作为社区个人维护项目(T3 来源),长期维护稳定性和安全更新频率存在不确定性。

mlx-stt 内容

手动下载zip · 1.8 kB
install.shtext/x-shellscript
请选择文件