mlx-audio-server

🎙️ Apple芯片本地语音AI服务

🥥84总安装量 17评分人数 12
100% 的用户推荐

Apple MLX驱动的本地OpenAI兼容语音服务,支持离线STT/TTS,数据零上传,适合注重隐私的macOS开发者。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,脚本使用 `set -ueo pipefail` 严格模式
  • ✅ 数据完全本地处理,仅与 localhost:8899 通信,无敏感信息外传或静默收集
  • ✅ 依赖通过 Homebrew 管理,版本由 Formula 锁定,无动态代码加载行为
  • ⚠️ 来源为 T3 级个人仓库,建议审查 guoqiao/tap 的 Formula 内容确保可信
  • ⚠️ 输入参数验证较简单,建议在使用前自行验证音频/视频文件存在性及格式

使用说明

MLX Audio Server 是一款专为 macOS Apple Silicon 设计的本地语音处理解决方案,基于 Apple 的 MLX 深度学习框架构建,提供 OpenAI 兼容的 RESTful API 服务,支持语音识别(STT)和语音合成(TTS)功能。

核心用法

该 Skill 通过 Homebrew 将 mlx-audio-server 安装为 LaunchAgent 服务,在本地 8899 端口持续运行。用户可通过提供的 Shell 脚本便捷调用:使用 run_stt.sh 可将音频或视频文件转换为文本(默认使用 mlx-community/glm-asr-nano-2512-8bit 模型),run_tts.sh 可将文本转换为语音(默认使用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 模型)。安装脚本会自动处理 ffmpeg、jq 等依赖,并配置为随系统启动的守护进程,实现真正的 24x7 本地服务。

显著优点

隐私保护是最大亮点,所有音频数据在本地处理,无需上传至云端,彻底杜绝敏感语音数据泄露风险。性能优化方面,充分利用 Apple Silicon 的 Neural Engine 和统一内存架构,提供低延迟的推理体验。兼容性上,OpenAI 风格的 API 设计使其可无缝对接现有生态,开发者可直接替换 OpenAI 的音频接口而无需修改代码。此外,支持视频直接输入(自动提取音频)、临时文件自动管理、以及完全开源免费的特性,使其成为个人和小团队的理想选择。

潜在缺点与局限性

平台限制极为严格,仅支持配备 Apple Silicon 的 macOS 设备,Intel Mac 和 Windows/Linux 用户无法使用。存储与资源方面,大语言模型文件通常占用数 GB 存储空间,且运行时对内存和 GPU 有较高要求。生态依赖上,强制依赖 Homebrew 包管理器,若用户未安装或偏好其他包管理器则无法使用。维护风险在于依赖个人维护的 Homebrew Tap (guoqiao/tap),长期更新支持存在不确定性。此外,当前版本主要面向本地单机使用,缺乏多设备协作或云端同步能力。

适合的目标群体

该 Skill 最适合注重隐私的 macOS 开发者内容创作者,特别是需要处理敏感语音数据(如会议记录、个人笔记)的用户。对于离线环境工作者(如无稳定网络的远程办公场景)或需要降低 API 成本的初创团队,本地部署可节省大量云端调用费用。同时,AI 应用开发者可利用其 OpenAI 兼容接口快速原型验证,避免在开发阶段产生大量云服务费。

使用风险

服务可用性风险:依赖本地 8899 端口服务,若服务异常退出或端口被占用,脚本将调用失败,建议用户监控服务状态。依赖链风险:Homebrew Tap 由个人维护,若上游 mlx-audio 项目更新导致 API 变更,可能存在兼容性问题。输入验证局限:脚本对输入文件的格式验证较简单,异常文件可能导致 ffmpeg 处理失败,建议在使用前验证文件完整性。资源占用:大模型推理会显著占用 GPU 资源,在 MacBook 等移动设备上长时间运行可能影响电池续航和系统流畅度。

mlx-audio-server 内容

手动下载zip · 3.9 kB
install.shtext/x-shellscript
请选择文件