computer-use

🖥️ 无头服务器的虚拟桌面自动化

🥥103总安装量 26评分人数 29
100% 的用户推荐

基于 Xvfb+XFCE 的虚拟桌面自动化方案,支持 17 种标准 GUI 操作,让无头服务器获得完整桌面控制能力,适用于远程自动化测试与运维场景。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 无网络请求与外部通信,数据不外流
  • ✅ 临时文件仅创建于 `/tmp/computer-use` 且正确清理
  • ✅ 无特权命令执行,不访问敏感文件或环境变量
  • ⚠️ 存在键盘注入风险::`type_text.sh` 和 `key.sh` 直接将用户输入传递给 xdotool,在终端焦点下可执行任意命令
  • ⚠️ 坐标参数未验证数值有效性,特殊字符未过滤

使用说明

核心用法

Computer Use Skill 是一套专为无头 Linux 服务器设计的虚拟桌面自动化解决方案。它通过 Xvfb(虚拟帧缓冲)和 XFCE4 桌面环境创建独立的显示会话(:99),使原本需要物理显示器的 GUI 应用程序能够在 VPS、云服务器等无头环境中运行。该技能提供 17 种标准桌面操作,包括截图、鼠标移动/点击/拖拽、键盘输入、滚动、等待等,完整覆盖人机交互的基本需求。

使用流程遵循"观察-分析-执行-验证"的闭环模式:首先通过截图获取当前屏幕状态,由 LLM 分析界面元素位置,执行点击或输入操作,再次截图验证结果,循环直至任务完成。所有操作脚本均为 Bash 实现,直接调用 xdotool 等系统工具,无需额外守护进程,与任意 LLM 模型兼容。

显著优点

环境独立性:完全基于开源工具链(Xvfb、XFCE、xdotool),不绑定特定云服务商或模型厂商,可在任何 Linux 服务器部署。

操作完整性:覆盖从基础点击到复杂拖拽、组合键、区域截图等全场景,甚至支持三击选中等精细操作。

模型无关性:纯脚本实现,输出标准 base64 图片和文本坐标,可与 Claude、GPT、开源模型等任意 LLM 配合。

资源轻量:1024×768 的 XGA 分辨率兼顾清晰度与性能,适合服务器环境;操作间内置 2 秒延迟避免资源耗尽。

潜在缺点与局限性

分辨率固定:仅支持 1024×768,现代网页或应用可能出现布局适配问题;高分屏应用需缩放处理。

无原生视觉理解:依赖 LLM 对截图进行 OCR 或元素识别,本身不提供计算机视觉能力,坐标定位精度受模型影响。

Linux 独占:基于 X11 生态,无法直接用于 Windows Server 或 macOS 环境。

延迟开销:每次操作后强制 2 秒等待+截图,高频交互场景效率受限;长文本输入采用 50 字符分块+12ms 延迟,大批量输入较慢。

适合的目标群体

  • 运维工程师:需要在无头服务器上运行依赖 GUI 的遗留应用或管理面板
  • 自动化测试开发者:为 Web 或桌面应用构建端到端测试流程,替代 Selenium/Puppeteer 的部分场景
  • AI Agent 开发者:为 LLM 赋予"看得见、点得到"的物理世界交互能力
  • 云服务器用户:在 VPS 上运行浏览器自动化、数据抓取等需要渲染引擎的任务

使用风险

键盘注入风险type_text.shkey.sh 直接将输入传递给 xdotool,若在终端焦点下输入恶意命令(如 rm -rf /),将直接执行。必须在隔离的虚拟桌面(:99)运行,严禁在宿主桌面使用。

系统级按键影响ctrl+alt+delalt+F4` 等组合键可能触发系统行为,虽在虚拟环境中不影响宿主机,但可能中断当前会话。

资源消耗:持续截图生成 base64 PNG,长期高频率运行将占用 CPU 和内存;建议配合操作日志监控异常循环。

依赖稳定性:依赖 xdotool 等系统包,若目标服务器未安装或版本差异可能导致行为不一致,需预先验证环境。

computer-use 内容

scripts文件夹
手动下载zip · 7.0 kB
click.shtext/x-shellscript
请选择文件