knowledge-base-collector

使用说明

Knowledge Base Collector 是一款面向个人用户的知识管理自动化工具，专注于将碎片化网络信息转化为结构化本地知识库。该技能通过一系列 Python 脚本实现，支持从网页链接、X/Twitter 帖子、微信公众号文章到截图图片的多模态内容采集，特别适合中文互联网环境下的知识沉淀需求。

核心用法上，用户可通过 ingest_url.py 脚本将任意 URL 一键入库，系统利用 r.jina.ai 服务智能提取正文，自动生成包含内容摘要和层级标签的 Markdown 文件，同时写入结构化元数据 JSON 与全局索引文件。对于截图内容，ingest_image.py 支持结合 OCR 文本提取与图像归档，实现"以图搜文"的知识沉淀。针对微信文章特有的风控限制，该技能创新性地支持通过连接的 macOS 节点（如 Reed-Mac）进行本地侧抓取，或在云端受阻时创建占位条目后续补全。配套的 search_kb.py 支持基于关键词、标签组合、时间范围的多维度检索，weekly_digest.py 可自动生成周期性阅读报告，与 Telegram 工作流深度集成实现问答式知识检索。

显著优点包括：完全本地化的存储架构确保数据主权，所有内容以开放的 Markdown 和 JSON 格式存储在指定目录，无需担心服务关停导致数据丢失；灵活的标签体系支持从粗粒度（如 #ai）到细粒度（如 #claude-code）的知识分类；对中文互联网环境（微信、X、网页）有特殊适配，支持微信文章的节点级抓取策略；文件组织采用标准的日期目录结构，便于版本控制和备份。

潜在缺点主要体现在对外部服务的依赖：网页内容提取重度依赖 r.jina.ai 的可用性，若该服务中断、限流或网络受限将直接影响核心功能；微信公众号抓取受平台动态风控策略影响，成功率存在不确定性；作为个人开发者维护的 T3 来源项目，长期维护承诺、安全更新响应速度和代码审计深度不及企业级产品；目前缺乏图形界面，完全依赖命令行操作，对非技术用户有一定门槛。

适合的目标群体包括：需要构建"第二大脑"的知识工作者与终身学习者、重视数据隐私的本地化优先用户、需要系统归档微信文章和社交媒体内容的研究人员与记者、希望通过自动化减少手动整理工作的效率追求者，以及需要在 Telegram 环境中快速检索历史资料的高级用户。

使用风险方面，用户需特别注意截图或网页中可能包含的敏感信息（Token、密钥、验证码）应在入库前按文档建议进行脱敏处理（替换为 REDACTED）；技能需要文件系统读写权限和网络访问权限，建议在隔离的本地环境或容器中运行；虽然代码审计显示无恶意行为，但作为 T3 来源仍建议在使用前审查 Python 脚本内容；此外，macOS 节点抓取功能依赖特定硬件环境与网络状态，无法保证 100% 可用性，且 WeChat 内容抓取可能违反平台服务条款，需用户自行评估合规风险。

content-media productivity docs automation data-analytics

knowledge-base-collector 内容

scripts文件夹

手动下载zip · 14.1 kB

ingest_image.pytext/plain

请选择文件