telegram-offline-voice

使用说明

核心用法

telegram-offline-voice 是一款专为 Telegram 语音消息场景设计的本地 TTS 封装工具。用户通过调用 voice_gen.py 脚本，传入待播报文本即可一键完成"文本清洗→语音合成→格式转换"的全流程。脚本内置智能预处理引擎，自动剔除 **、`` `` `、 `、link)` 等 Markdown 标记，避免 AI 读出代码噪音；同时按句号、感叹号将超长文本切分为多段语音气泡，模拟真人对话节奏。最终输出 Telegram 原生兼容的 OGG Opus 格式，可直接作为语音消息发送。

显著优点

成本优势突出：完全基于免费的 Microsoft Edge-TTS 引擎，无需 OpenAI、Azure 等付费 Token，长期使用零边际成本。隐私保护到位：音频处理 100% 本地完成，仅文本需发送至 Microsoft TTS 服务，无第三方数据留存风险。工程化体验优秀：UUID 隔离临时文件的设计解决了多代理并发调用的文件冲突难题；try...finally 结构确保临时 MP3 自动清理，避免磁盘堆积。输出质量专业：支持语速调节（默认+5%）、多声线选择（默认晓晓），朗读自然度接近真人。

潜在缺点与局限性

网络依赖存在：虽标榜"离线"，但 edge-tts 仍需连接 Microsoft 在线服务，纯内网环境无法使用。平台限制明显：当前仅支持 Linux 系统，Windows/macOS 用户需自行适配。功能边界清晰：仅处理文本到语音的单向转换，不支持语音转文字、实时流式合成等进阶需求。依赖管理成本：需预装 ffmpeg 和 Python 环境，对非技术用户有一定门槛。

适合的目标群体

Telegram Bot 开发者：需要为机器人添加语音回复能力的工程师
多代理系统架构师：构建复杂 AI 工作流、需并发安全 TTS 能力的团队
成本敏感型创作者：自媒体、播客制作等高频语音生成场景
隐私优先用户：不愿将内容提交至商业 TTS API 的个人或组织

使用风险

性能瓶颈：长文本分段生成时串行调用 TTS 服务，大批量任务可能产生延迟。依赖稳定性：edge-tts 作为非官方封装库，存在 Microsoft 服务策略变更导致失效的可能。临时文件残留：极端情况下（如进程被强制终止），/tmp 目录可能残留 OGG 文件，建议定期清理。声线局限性：仅支持 Edge-TTS 内置的中文声线，无法自定义训练专属音色。

content-media productivity automation api backend

telegram-offline-voice 内容

.clawhub文件夹

scripts文件夹

手动下载zip · 5.4 kB

origin.jsonapplication/json

请选择文件