wechat-search

🔍 合规优先的微信内容检索专家

🥥22总安装量 7评分人数 7
100% 的用户推荐

基于 OpenClaw 生态的三层合规搜索方案,通过 Brave/Tavily API 优先策略合法获取微信公众号文章,兼顾效率与平台规则尊重。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ⚠️ <br/>**命令注入风险**:`subprocess.run()()` 调用中用户搜索查询直接拼接到命令参数,虽使用列表形式但仍需更严格的输入过滤与转义
  • ⚠️ <br/>**硬编码路径风险**:多处使用 `/root/.openclaw/workspace/skills/tavily-search/scripts/search.mjs` 绝对路径,存在路径遍历及环境迁移隐患
  • ⚠️ <br/>**环境变量依赖**:`TAVILY_API_KEY` 等敏感信息通过环境变量获取,缺乏污染检测与验证机制
  • ⚠️ <br/>**URL 验证宽松**:`is_valid_wechat_url()()` 仅简单检查域名包含关系,可能被恶意构造绕过
  • ✅ <br/>**无持久化风险**:仅返回元数据,不存储完整文章内容,数据留存风险可控

使用说明

核心用法

wechat-search 是一款专为微信公众号文章检索设计的智能搜索技能,采用独特的三层递进式搜索架构。用户通过简单的命令行指令即可触发搜索,系统会依次尝试:第一层使用 OpenClaw 内置的 Brave Search API(通过 site:mp.weixin.qq.com 限定域名),第二层回退至 Tavily AI 搜索 API,第三层才启用对搜狗微信搜索的直接页面抓取。这种设计将合法 API 调用置于优先地位,仅在必要时才启用网页抓取,体现了对平台规则的充分尊重。

技能支持丰富的搜索参数配置,包括结果数量控制(默认 5 条,最高 20 条)、时间范围筛选(近一周或自定义日期区间)、多种输出格式(纯文本、JSON、Markdown)以及强制指定搜索策略等高级选项。用户还可通过 ~/.openclaw/wechat-search-config.json 自定义请求延迟、缓存时长、User-Agent 等行为参数,实现个性化配置。

显著优点

合规优先的设计理念是该技能最突出的差异化优势。与常见的粗暴爬虫工具不同,wechat-search 明确将 robots.txt 遵守、速率限制(默认 5 秒延迟)、透明 User-Agent 标识作为核心设计原则,仅访问公开内容且不保留完整文章数据,在法律和伦理层面建立了清晰边界。

三层容错架构确保了极高的可用性。当 Brave Search API 因密钥问题或网络故障不可用时,系统自动无缝切换至 Tavily API;若两者均失效,最终回退层仍能保障基础功能可用。这种设计显著降低了单点故障风险,特别适合对稳定性有要求的生产环境。

输出格式灵活满足了不同场景需求:研究人员可获取 JSON 结构化数据进行二次分析,内容运营者可选用 Markdown 格式直接导入知识库,普通用户则可通过简洁文本快速浏览结果。时间过滤功能对于追踪热点话题、研究趋势演变具有实用价值。

潜在缺点与局限性

外部依赖较重是首要限制。技能正常运行高度依赖 OpenClaw 平台的 web_searchweb_fetch 工具,以及 Brave/Tavily 等第三方 API 的可用性和定价策略。若平台接口变更或 API 服务商调整政策,可能导致功能中断。

搜索覆盖存在盲区。微信公众号内容生态相对封闭,大量文章未被搜索引擎充分索引,尤其是新发布或阅读量较低的内容。三层策略虽能缓解这一问题,但无法根本解决微信生态的内容孤岛特性,某些特定账号或历史文章可能检索不到。

功能深度有限。当前版本仅返回文章元数据(标题、URL、摘要、发布时间),不支持全文内容获取、阅读数/点赞数提取、评论区分析等深度数据挖掘。对于需要完整内容归档或情感分析的用户,仍需配合其他工具二次处理。

中文分词与语义理解依赖底层搜索引擎能力,技能本身未做针对性优化。复杂查询或专业术语的召回效果可能不及微信内置搜索或专业新媒体监测平台。

适合的目标群体

该技能特别适合以下用户场景:

  • 新媒体运营与竞品分析人员:需要批量追踪行业公众号动态、监测竞品发文节奏与选题方向,但预算有限无法采购专业 SaaS 工具
  • 学术研究人员:进行社交媒体传播、中文自然语言处理、舆论分析等领域的研究,需要可编程、可复现的微信内容采集方案
  • 开源情报(OSINT)分析师:在合规框架内收集公开信息,三层策略提供了审计友好的数据来源说明
  • 开发者与自动化爱好者:希望将微信内容检索集成到个人工作流、RSS 系统或知识管理工具中
  • 中小团队内容策展:定期汇总特定领域的优质公众号文章,用于内部分享或 newsletter 制作

不适合对实时性要求极高(分钟级)、需要大规模并发抓取、或期望获取非公开/付费内容的用户。

使用风险

性能层面,第三层直接抓取策略受搜狗反爬机制影响,可能出现响应延迟增加或临时封禁 IP 的情况。建议生产环境优先配置 API 密钥,减少对回退层的依赖。缓存机制虽能降低重复查询成本,但 1 小时默认缓存可能导致最新内容获取存在滞后。

依赖项风险包括:Node.js 运行时环境需单独维护,,search.mjs 外部脚本的安全性需额外审查;Tavily API 的速率限制和计费模式需提前了解;OpenClaw 平台版本迭代可能引入接口变更。

合规边界方面,尽管设计初衷强调合规,但用户仍需自行评估具体使用场景是否符合《网络安全法》《数据安全法》及微信平台服务协议,特别是商业用途和大量数据采集场景。建议保留完整的搜索日志以备审计。

wechat-search 内容

手动下载zip · 11.7 kB
debug_test.pytext/plain
请选择文件