gemini-computer-use

🖥️ Gemini 驱动的浏览器自动化代理

🥥7总安装量 2评分人数 1
100% 的用户推荐

基于 Gemini 2.5 Computer Use API 与 Playwright 的浏览器自动化方案,具备安全确认机制,支持复杂网页任务的智能代理控制。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全性:通过白名单验证机制,无危险函数调用风险
  • ✅ 执行安全机制:具备 safety_decision 用户确认流程,高危操作需人工授权后方可执行
  • ✅ 依赖可靠性:使用 google-genai 和 playwright 等知名官方库,供应链安全风险低
  • ⚠️ 来源可信度:T3 级别来源,虽代码质量满足 A 级标准,但非 Google 官方直接发布维护
  • ⚠️ 运行环境风险:浏览器控制类工具建议在沙箱或容器环境中使用,避免本地系统遭受意外操作影响

使用说明

该 Skill 提供了一套基于 Google Gemini 2.5 Computer Use 模型与 Playwright 的浏览器自动化解决方案,通过智能代理循环架构实现复杂的网页控制任务,适用于自动化测试、数据抓取及工作流处理等场景。

核心用法
用户配置 API Key 和环境变量后,通过命令行启动 Python 代理脚本。系统采用"截图-决策-执行"的闭环架构:首先由 Playwright 捕获当前浏览器视口截图,连同用户目标一并发送至 Gemini 模型;模型分析视觉信息与网页结构后,返回 function_call 动作指令(如点击、输入、滚动、导航等);脚本解析并在本地浏览器执行相应操作。若模型判定操作存在风险(safety_decision 标记为 require_confirmation),系统将暂停并提示用户人工确认,避免自动执行高危动作(如支付、删除账户)。循环持续至任务完成或达到设定的回合限制(turn-limit)。支持通过环境变量切换 Chromium、Chrome、Edge 或 Brave 等多种浏览器内核。

显著优点
技术栈成熟且权威,底层采用 Playwright 这一业界标准的浏览器自动化框架,配合 Google 官方 GenAI SDK,功能稳定性与兼容性有保障。安全机制完善,内置双层防护:代码层通过白名单验证确保仅执行预定义的安全函数,交互层通过 safety_decision 机制实现人工介入确认,显著降低 AI 自主操作带来的潜在风险。配置灵活度高,支持自定义浏览器可执行文件路径、视口尺寸(默认 1440x900)及动作排除列表(--exclude),适应不同的开发与测试环境需求。

潜在缺点与局限性
来源可信度为 T3 级别,虽经认证代码质量达到 A 级标准,但非 Google 官方直接维护的长期项目,版本更新与漏洞修复依赖社区贡献。功能上存在供应商锁定,深度依赖 Gemini 2.5 Computer Use API,存在网络延迟、服务可用性及 API 调用成本等外部依赖风险。浏览器支持范围受限,目前仅适配 Chromium 内核浏览器,对 Firefox、Safari 等引擎缺乏支持。此外,工具要求用户具备命令行操作、Python 虚拟环境管理及 API Key 配置等技术基础,对非技术用户门槛较高。

适合的目标群体
主要面向前端开发工程师、QA 自动化测试人员、RPA(机器人流程自动化)开发者,以及需要处理复杂网页交互的技术型用户。特别适合那些无法通过固定脚本(如传统 Selenium 脚本)解决的动态决策场景,例如需要根据页面视觉内容做出判断的智能测试、跨步骤的复杂表单填写、以及涉及安全确认的关键业务操作自动化。

使用风险
浏览器自动化工具本质上具有较高系统权限,建议在隔离的沙箱环境、虚拟机或 Docker 容器中运行,避免代理误操作影响本地主机系统或泄露敏感信息。API Key 需通过环境变量配置,严禁硬编码在代码仓库中,防止密钥泄露导致额度被盗刷。长时间或高频的自动化操作可能触发目标网站的反爬虫机制,导致 IP 被封禁或账户受限。此外,AI 模型可能对复杂网页结构产生误判,建议合理设置 turn-limit 并监控执行日志,防止无限循环或偏离预期任务路径。

gemini-computer-use 内容

文件夹图标references文件夹
文件夹图标scripts文件夹
手动下载zip · 5.3 kB
google-computer-use.mdtext/markdown
请选择文件