deep-scraper

🕷️ 穿透反爬的容器化数据猎手

🥥12总安装量 6评分人数 4
100% 的用户推荐

基于 Docker + Crawlee 的容器化深度爬虫工具,可穿透 YouTube/X 等复杂站点的反爬机制,为 LLM 提供纯净的结构化数据。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码结构清晰,无恶意逻辑或注入行为
  • ✅ 依赖包均为知名开源项目(Crawlee/Playwright),无已知严重漏洞
  • ✅ 无本地文件写入、无系统命令执行、无敏感信息窃取行为
  • ⚠️ 使用 `--no-sandbox` 参数为 Docker 环境必需,但需确保容器隔离性
  • ⚠️ 来源为社区开源项目(clawdbot/skills),可审计但非企业级官方背书

使用说明

核心用法

deep-scraper 是一款面向工程场景的高性能网页抓取工具,采用容器化架构(Docker + Crawlee + Playwright)实现对复杂网站的深度数据提取。用户需先构建 Docker 镜像 clawd-crawlee,随后通过 CLI 调用执行抓取任务。工具内置 YouTube 专用处理器,支持视频字幕、描述等核心数据的"拦截级"提取,输出格式为标准 JSON,包含状态码、数据类型、视频 ID 及核心内容字段。

显著优点

穿透能力强:基于 Playwright 的真实浏览器环境,可有效绕过现代网站常见的反爬机制(如动态渲染、Bot 检测),对 YouTube、X/Twitter 等平台具有针对性优化。数据纯净度高:自动过滤广告、推荐内容等噪声,输出专为 LLM 处理优化的 Alpha 级数据。架构隔离性好:Docker 容器化部署确保运行环境与宿主系统隔离,降低安全风险。会话管理规范:内置 Cookie 清除机制,保证多任务间的会话隔离,避免数据污染。

潜在缺点与局限性

部署门槛较高:强制依赖 Docker 环境,对非技术用户不够友好。资源消耗较大:Playwright 启动完整浏览器实例,内存和 CPU 占用显著高于传统 HTTP 爬虫。平台适配有限:当前版本主要针对 YouTube 优化,通用网站的适配深度不足。合规风险需自担:工具本身不验证目标网站的 robots.txt 或服务条款,用户需自行确保合法使用。

适合的目标群体

主要面向AI/LLM 应用开发者(需要高质量训练数据或 RAG 知识库输入)、数据工程师(构建自动化数据管道)、研究人员(需要批量获取公开视频内容的学术分析场景)。不适合普通办公用户或仅需简单网页信息提取的场景。

使用风险

性能风险:浏览器实例启动耗时较长,高频调用时建议配合队列和缓存机制。依赖稳定性:Crawlee 和 Playwright 的版本更新可能引入破坏性变更,需锁定版本并定期测试。目标网站变更:YouTube 等平台的页面结构更新可能导致抓取逻辑失效,需持续维护。法律合规:抓取行为可能违反部分平台的服务条款,商业使用前建议进行合规评估。

deep-scraper 内容

文件夹图标assets文件夹
手动下载zip · 4.8 kB
main_handler.jstext/javascript
请选择文件