该 Skill 提供了基于 browser-use 框架的本地浏览器自动化能力,专为 OpenClaw 容器/主机环境设计,支持通过 CLI 命令或 Python Agent 代码实现网页打开、元素操作、截图、HTML 提取等全流程浏览器控制。区别于依赖系统浏览器的传统方案,该工具采用独立的 browser-use 运行时,在无桌面环境的容器中也能稳定工作。
核心用法分为两条路径:一是 CLI 快速工作流,通过 --session 建立持久化会话,使用 open、state、screenshot、get html 等子命令完成单步操作,适合快速调试和确定性任务;二是 Agent 智能工作流,通过 Python 脚本调用 browser-use 的 Agent 类,结合 OpenAI 兼容 API(如 Moonshot/Kimi)实现自然语言驱动的自主浏览器任务,支持自动处理页面跳转、表单填写等复杂流程。
显著优点包括:完全本地执行确保数据隐私,敏感操作无需上传至第三方浏览器云服务;深度适配国产大模型生态,针对 Kimi-k2.5 的特殊参数要求(temperature=1、frequency_penalty=0)提供了开箱即用的配置方案;专业的二维码提取能力,支持从截图裁剪和 HTML base64 数据源双重解码;丰富的调试手段,当 state 命令在 JavaScript 重载页面失效时,可通过 eval 执行 JavaScript 或分析 HTML 源码继续工作。
潜在局限性主要体现在:依赖管理方面未提供 requirements.txt 等锁定文件,用户需自行确保 browser-use、Pillow、python-dotenv 等依赖版本兼容;来源为 T3 级社区个人开发者,虽代码通过安全审计,但长期维护稳定性需观察;state 命令在复杂动态页面可能返回空元素列表,需要配合截图和 HTML 分析使用。
适合目标群体包括:需要浏览器自动化测试的开发者、构建 RPA 流程的运维人员、使用 Moonshot/Kimi 等国产 LLM 构建浏览器 Agent 的 AI 应用开发者,以及需要从登录页提取二维码进行扫码认证的场景。
使用风险主要涉及:依赖版本冲突可能导致功能异常,建议在虚拟环境中运行;Agent 模式需要配置有效的 API Key 和 Base URL,错误配置可能导致请求失败;页面 readiness 超时警告在复杂页面常见,通常不影响实际功能,但需通过截图验证页面状态;多步骤流程建议始终使用 --session 保持会话状态,避免 Cookie 丢失导致流程中断。