telegram-offline-voice

🎙️ 零成本本地语音合成专家

🥥4总安装量 2评分人数 3
100% 的用户推荐

基于 Microsoft Edge-TTS 的本地语音生成工具,自动清洗 Markdown 并智能分段,零 API 成本为 Telegram 输出高质量中文语音。

A

基本安全,请在特定环境下使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 无恶意代码或数据外传行为,功能透明可审计
  • ✅ 文件操作安全规范,UUID 命名避免并发冲突,路径遍历防护完善
  • ✅ 命令执行无注入风险,ffmpeg 参数以列表形式传递
  • ⚠️ 需连接 Microsoft 在线 TTS 服务,非完全离线,存在服务可用性依赖
  • ⚠️ 依赖外部 `edge-tts` 开源库,供应链变更可能影响长期稳定性

使用说明

核心用法

telegram-offline-voice 是一款专为 Telegram 语音消息场景设计的本地 TTS 封装工具。用户通过调用 voice_gen.py 脚本,传入待播报文本即可一键完成"文本清洗→语音合成→格式转换"的全流程。脚本内置智能预处理引擎,自动剔除 **、`` `` ` `link)` 等 Markdown 标记,避免 AI 读出代码噪音;同时按句号、感叹号将超长文本切分为多段语音气泡,模拟真人对话节奏。最终输出 Telegram 原生兼容的 OGG Opus 格式,可直接作为语音消息发送。

显著优点

成本优势突出:完全基于免费的 Microsoft Edge-TTS 引擎,无需 OpenAI、Azure 等付费 Token,长期使用零边际成本。隐私保护到位:音频处理 100% 本地完成,仅文本需发送至 Microsoft TTS 服务,无第三方数据留存风险。工程化体验优秀:UUID 隔离临时文件的设计解决了多代理并发调用的文件冲突难题;try...finally 结构确保临时 MP3 自动清理,避免磁盘堆积。输出质量专业:支持语速调节(默认+5%)、多声线选择(默认晓晓),朗读自然度接近真人。

潜在缺点与局限性

网络依赖存在:虽标榜"离线",但 edge-tts 仍需连接 Microsoft 在线服务,纯内网环境无法使用。平台限制明显:当前仅支持 Linux 系统,Windows/macOS 用户需自行适配。功能边界清晰:仅处理文本到语音的单向转换,不支持语音转文字、实时流式合成等进阶需求。依赖管理成本:需预装 ffmpeg 和 Python 环境,对非技术用户有一定门槛。

适合的目标群体

  • Telegram Bot 开发者:需要为机器人添加语音回复能力的工程师
  • 多代理系统架构师:构建复杂 AI 工作流、需并发安全 TTS 能力的团队
  • 成本敏感型创作者:自媒体、播客制作等高频语音生成场景
  • 隐私优先用户:不愿将内容提交至商业 TTS API 的个人或组织

使用风险

性能瓶颈:长文本分段生成时串行调用 TTS 服务,大批量任务可能产生延迟。依赖稳定性edge-tts 作为非官方封装库,存在 Microsoft 服务策略变更导致失效的可能。临时文件残留:极端情况下(如进程被强制终止),/tmp 目录可能残留 OGG 文件,建议定期清理。声线局限性:仅支持 Edge-TTS 内置的中文声线,无法自定义训练专属音色。

telegram-offline-voice 内容

文件夹图标.clawhub文件夹
文件夹图标scripts文件夹
手动下载zip · 5.4 kB
origin.jsonapplication/json
请选择文件