playwright-scraper-skill

🕷️ 智能反爬虫网页数据抓取专家

🥥112总安装量 23评分人数 13
100% 的用户推荐

基于 Microsoft Playwright 的网页爬虫工具,具备 Cloudflare 反爬虫绕过能力,适合开发者高效抓取动态网页数据。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码完全开源透明,无恶意代码、后门或数据窃取行为
  • ✅ 依赖项安全,Playwright 为 Microsoft 官方维护的主流自动化框架
  • ⚠️ 包含反检测技术(隐藏 navigator.webdriver),可能用于违反网站服务条款
  • ⚠️ 文件写入路径由用户环境变量控制,需确保路径安全性
  • ⚠️ 无第三方安全审计,作者为个人开发者而非知名组织

使用说明

核心用法

Playwright Scraper Skill 提供三层爬虫策略,根据目标网站的反爬虫强度灵活选择:

1. web_fetch 内置工具:针对无动态加载的常规网站,速度最快
2. playwright-simple.js:针对需要 JavaScript 渲染的动态网站,3-5 秒完成抓取

3. playwright-stealth.js:针对 Cloudflare 等高防护网站,通过隐藏自动化特征、模拟真实设备 User-Agent、随机延迟等技术实现 100% 成功率

支持环境变量自定义(截图路径、等待时间、无头模式、HTML 保存等),并可扩展至 YouTube、Reddit 等特定平台的专用爬虫技能。

显著优点

  • 分层策略设计:从简单到复杂场景全覆盖,避免过度使用重型工具
  • 实战验证有效:在 Discuss.com.hk 等复杂站点测试通过,成功率优于 Puppeteer Stealth、Crawlee、Chaser 等方案
  • 技术透明可控:纯 Playwright 实现,无高层框架依赖,反检测代码清晰可见
  • 微软官方生态:基于 Playwright 1.40.0+,依赖项安全且持续维护
  • 开源可定制:MIT 许可证,支持二次开发和功能扩展

潜在缺点与局限性

  • 速度权衡:Stealth 模式需 5-20 秒,显著慢于简单请求
  • 法律灰色地带:反爬虫绕过技术可能违反目标网站服务条款
  • 无内置代理轮换:需用户自行实现 IP 池管理
  • 无验证码处理:CAPTCHA 需对接第三方服务(2captcha 等)
  • Chromium 依赖:首次安装需下载浏览器,占用存储空间

适合的目标群体

  • 数据分析师、研究人员:需要获取公开网页数据用于学术研究
  • 开发者、工程师:构建数据管道、竞品监控、价格追踪系统
  • 产品经理、运营:市场情报收集、舆情监测
  • 技术爱好者:学习浏览器自动化和反爬虫技术原理

使用风险

  • 合规风险:用户需自行承担违反 robots.txt 或服务条款的法律责任
  • 性能开销:Playwright 启动浏览器消耗内存和 CPU,不适合高频轻量请求
  • 依赖维护:Chromium 版本与 Playwright 绑定,升级可能引入兼容性问题
  • 检测对抗:反爬虫技术持续演进,当前方案未来可能失效
  • 数据安全:抓取的个人数据需遵守 GDPR 等隐私法规

playwright-scraper-skill 内容

examples文件夹
scripts文件夹
手动下载zip · 18.0 kB
discuss-hk.shtext/x-shellscript
请选择文件