agent-browser

🌐 AI 原生浏览器自动化引擎

🥥1.6k总安装量 382评分人数 519
99% 的用户推荐

Vercel Labs 官方出品的 Headless 浏览器自动化工具,通过无障碍树快照实现确定性元素选择,为 AI Agent 提供高性能、可隔离的多会话网页自动化能力。

A

基本安全,请在特定环境下使用

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 来源高度可信:底层工具由 Vercel Labs 官方开发维护,代码开源可审计
  • ✅ 无隐藏数据外传:未发现静默上传用户数据或文件的行为
  • ⚠️ 敏感数据访问:可读取浏览器 cookies、localStorage 等敏感信息,需妥善保管状态文件
  • ⚠️ 命令注入风险:通过 CLI 调用底层工具,依赖 `agent-browser` 自身的参数转义安全性
  • ✅ 会话隔离支持:提供 `--session` 参数实现浏览器上下文隔离,降低跨会话数据泄露风险

使用说明

核心用法

Agent Browser 是一款专为 AI Agent 设计的 Headless 浏览器自动化 CLI 工具,核心工作流围绕"快照-解析-交互-再快照"的循环展开。用户首先通过 agent-browser open 打开目标页面,使用 snapshot -i --json 获取包含可交互元素引用的无障碍树快照,AI 解析返回的 JSON 数据识别元素引用(如 @e2、@e3),再通过 clickfilltype 等命令执行精确交互,最后重新快照验证页面状态变化。该工具支持多会话隔离(--session)、状态持久化(state save/load)、网络拦截与模拟、Cookie 和 Storage 管理、多标签页与 iframe 切换等高级功能,满足复杂 SPA 自动化和多用户并发测试场景。

显著优点

确定性元素选择是该工具最大亮点。传统浏览器自动化依赖 CSS 选择器或 XPath,容易因页面结构变化而失效;Agent Browser 通过无障碍树快照生成稳定的 ref 引用,大幅降低维护成本。性能优化方面,Headless 模式配合精简的交互元素快照(-i 标志),显著减少数据传输量和解析开销。会话隔离机制允许同时运行多个独立的浏览器上下文,非常适合多角色测试(如管理员与普通用户并行操作)。网络控制能力提供请求拦截(--abort)、响应模拟(--body)和请求日志查看,便于安全测试和 API Mock。状态持久化功能可将认证信息保存为 JSON 文件,跳过重复登录流程,提升自动化效率。

潜在缺点与局限性

功能边界明确带来的限制:该工具明确不适用于需要视觉分析的场景(如截图 OCR、PDF 内容解析),此类需求仍需使用内置浏览器工具。CLI 依赖要求用户预先安装 agent-browser 及其 Chromium 依赖,增加了环境配置复杂度。学习曲线方面,ref 引用的交互模式与传统选择器不同,需要适应新的心智模型。调试体验虽有 --headed 标志支持可视化调试,但相比图形化自动化工具仍显简陋。生态锁定风险:深度依赖 Vercel Labs 的特定实现,若项目停止维护,迁移成本较高。

适合的目标群体

该工具最适合AI Agent 开发者自动化测试工程师,尤其是需要构建可靠、可维护的多步骤网页工作流的场景。后端开发者进行集成测试、安全研究员进行 Web 应用安全审计、数据工程师构建爬虫和数据采集管道也能从中受益。对于需要频繁处理复杂 SPA(单页应用)、对执行稳定性要求高、或需要并行多用户会话的团队,Agent Browser 相比传统方案具有明显优势。不适合纯前端开发者进行视觉回归测试,或需要快速原型验证的非技术用户。

使用风险

供应链风险:依赖 npm 生态和 Vercel Labs 的持续维护,建议锁定版本并使用官方源安装。敏感数据泄露state save 保存的文件包含完整 cookies 和 storage,需加密存储并限制访问权限。网络安全隐患:自动化工具可能被用于未授权访问,务必在合法授权范围内使用。性能瓶颈:大规模并发或复杂页面可能导致内存占用过高,需监控资源使用。Chromium 兼容性:底层依赖特定 Chromium 版本,升级可能引入行为变化,建议固定浏览器版本。

agent-browser 内容

手动下载zip · 2.3 kB
SKILL.mdtext/markdown
请选择文件