gemini-computer-use

使用说明

该 Skill 提供了一套基于 Google Gemini 2.5 Computer Use 模型与 Playwright 的浏览器自动化解决方案，通过智能代理循环架构实现复杂的网页控制任务，适用于自动化测试、数据抓取及工作流处理等场景。

核心用法
用户配置 API Key 和环境变量后，通过命令行启动 Python 代理脚本。系统采用"截图-决策-执行"的闭环架构：首先由 Playwright 捕获当前浏览器视口截图，连同用户目标一并发送至 Gemini 模型；模型分析视觉信息与网页结构后，返回 function_call 动作指令（如点击、输入、滚动、导航等）；脚本解析并在本地浏览器执行相应操作。若模型判定操作存在风险（safety_decision 标记为 require_confirmation），系统将暂停并提示用户人工确认，避免自动执行高危动作（如支付、删除账户）。循环持续至任务完成或达到设定的回合限制（turn-limit）。支持通过环境变量切换 Chromium、Chrome、Edge 或 Brave 等多种浏览器内核。

显著优点
技术栈成熟且权威，底层采用 Playwright 这一业界标准的浏览器自动化框架，配合 Google 官方 GenAI SDK，功能稳定性与兼容性有保障。安全机制完善，内置双层防护：代码层通过白名单验证确保仅执行预定义的安全函数，交互层通过 safety_decision 机制实现人工介入确认，显著降低 AI 自主操作带来的潜在风险。配置灵活度高，支持自定义浏览器可执行文件路径、视口尺寸（默认 1440x900）及动作排除列表（--exclude），适应不同的开发与测试环境需求。

潜在缺点与局限性
来源可信度为 T3 级别，虽经认证代码质量达到 A 级标准，但非 Google 官方直接维护的长期项目，版本更新与漏洞修复依赖社区贡献。功能上存在供应商锁定，深度依赖 Gemini 2.5 Computer Use API，存在网络延迟、服务可用性及 API 调用成本等外部依赖风险。浏览器支持范围受限，目前仅适配 Chromium 内核浏览器，对 Firefox、Safari 等引擎缺乏支持。此外，工具要求用户具备命令行操作、Python 虚拟环境管理及 API Key 配置等技术基础，对非技术用户门槛较高。

适合的目标群体
主要面向前端开发工程师、QA 自动化测试人员、RPA（机器人流程自动化）开发者，以及需要处理复杂网页交互的技术型用户。特别适合那些无法通过固定脚本（如传统 Selenium 脚本）解决的动态决策场景，例如需要根据页面视觉内容做出判断的智能测试、跨步骤的复杂表单填写、以及涉及安全确认的关键业务操作自动化。

使用风险
浏览器自动化工具本质上具有较高系统权限，建议在隔离的沙箱环境、虚拟机或 Docker 容器中运行，避免代理误操作影响本地主机系统或泄露敏感信息。API Key 需通过环境变量配置，严禁硬编码在代码仓库中，防止密钥泄露导致额度被盗刷。长时间或高频的自动化操作可能触发目标网站的反爬虫机制，导致 IP 被封禁或账户受限。此外，AI 模型可能对复杂网页结构产生误判，建议合理设置 turn-limit 并监控执行日志，防止无限循环或偏离预期任务路径。

automation testing development-engineering api

gemini-computer-use 内容

references文件夹

scripts文件夹

手动下载zip · 5.3 kB

google-computer-use.mdtext/markdown

请选择文件