telegram-voice-group 是一款专为 Telegram 生态设计的语音消息自动化工具,通过集成 Microsoft Edge-TTS 与 FFmpeg,实现高质量文本转语音并发送至指定群组话题。
核心用法方面,该技能支持三种调用模式:直接在 OpenClaw 会话中以自然语言指令发送、通过 sessions_spawn API 程序化调用,以及在 JavaScript 环境中直接引入模块执行。其独特之处在于深度整合 Telegram 话题(Topic)功能,支持向 agent:main:telegram:group:{groupId}:topic:{threadId} 格式的特定话题发送语音,实现类似 Discord 频道的上下文隔离,每个话题拥有独立的会话历史和配置。
显著优点体现在技术实现与功能设计的结合:采用 Edge-TTS 生成高质量中文语音,支持语速调节与多种音色选择;自动通过 FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式(48k比特率、单声道、48kHz采样率),确保语音气泡正常显示;内置文本清洗机制,自动移除 Markdown 标记、URL 和特殊符号,避免朗读干扰;临时文件生成后通过 finally 块与 trap 机制双重保障清理。
潜在缺点与局限性包括:仅支持 Linux 系统运行;强依赖外部二进制工具(ffmpeg 与 edge-tts),需用户手动安装且版本未锁定;作为 T3 级社区来源项目,代码维护与长期支持存在不确定性;当前实现存在命令注入漏洞,对用户输入的验证机制不足。
适合的目标群体主要包括:需要构建 Telegram 自动化通知系统的开发者与运维人员;希望用 Telegram 话题功能替代 Discord 频道进行社区管理的运营者;以及需要将 AI 生成内容转换为语音播报的客服与内容创作者。
使用风险需重点关注:由于用户输入直接拼接到 shell 命令执行,存在命令注入风险,建议仅在可信环境或沙箱中运行;依赖项故障可能导致服务中断;临时文件存储于 /tmp 目录,需确保文件系统权限正确;在高安全要求场景下,建议修复输入验证机制后再投入生产使用。