whisper-mlx-local · COCOLOOP

使用说明

核心用法

whisper-mlx-local 是一款专为 macOS Apple Silicon 设备设计的本地语音转文字技能。用户通过安装 Python 依赖并启动本地守护进程（daemon），即可在 localhost:8787 提供 HTTP API 服务。该技能通过 OpenClaw 配置集成到 Telegram、WhatsApp 等即时通讯工具的工作流中，自动将接收到的语音消息转录为文本。首次运行需下载约 1.5GB 的 Whisper 模型，后续转录速度可达约 1 秒/条。支持多语言识别及英译功能，完全离线运行。

显著优点

零成本运营：彻底消除 OpenAI Whisper（$0.006/分钟）、Groq（$0.001/分钟）等商业 API 的持续费用，适合高频语音处理场景。隐私优先：音频数据全程本地处理，不上传任何第三方服务器，满足敏感场景需求。性能优异：基于 Apple MLX 框架深度优化，在 M1/M2/M3/M4 芯片上实现高效推理。生态兼容：通过标准 HTTP 接口与 OpenClaw 网关无缝对接，支持 Telegram、WhatsApp 等多平台语音消息自动化处理。开源透明：MIT 许可证，代码完全公开可审计。

潜在缺点与局限性

硬件门槛严格：仅限 macOS Apple Silicon 设备，Intel Mac 及 Windows/Linux 用户无法使用。首次配置较重：1.5GB 模型下载与内存加载（10-30 秒冷启动）对网络与耐心有要求。功能边界清晰：专注语音转文字，无说话人分离、情感分析等高级功能。维护依赖社区：非官方团队维护，长期更新与技术支持存在不确定性。多后端复杂性：虽支持 OpenAI/Groq 作为备选，但切换后丧失本地隐私优势。

适合的目标群体

高频处理 Telegram/WhatsApp 语音消息的 macOS 用户
对数据隐私有严格要求的内容创作者、记者、研究人员
希望消除 API 订阅成本的个人开发者与小团队
已部署 OpenClaw 生态、追求工作流自动化的效率用户

使用风险

性能波动：首条转录延迟显著，大文件或长语音可能触发 60 秒超时。依赖管理：Python 环境与多库依赖（mlx-whisper、faster-whisper 等）可能引发版本冲突。模型存储：1.5GB 模型持续占用磁盘空间。后端误配：配置不当可能导致音频意外发送至 OpenAI/Groq API，破坏隐私预期。进程稳定性：daemon 需手动或配置 LaunchAgent 保活，异常退出将中断服务。

content-media productivity automation macos privacy ai-ml api

whisper-mlx-local 内容

scripts文件夹

手动下载zip · 12.0 kB

daemon.pytext/plain

请选择文件