。
Anthropic 在 2024 年底率先将这项能力作为正式功能推出,Claude 的 Computer Use 功能让开发者可以授权模型控制一台真实或虚拟的计算机桌面。
先用一句话抓住它
Computer Use 让 AI 能像人一样使用电脑:看屏幕、点鼠标、敲键盘,而不只是调用 API。
普通工具调用需要软件提供专门的接口,Computer Use 则绕过这一限制——只要人能看懂的界面,AI 原则上都能操作。这让它能处理那些没有 API、只有图形界面的软件和网站。
它是怎么工作的
Computer Use 的核心是一个循环:截图 → 模型分析 → 执行动作 → 再截图。
- 系统对当前屏幕截图,发送给模型
- 模型分析截图内容,判断下一步应该做什么
- 模型输出动作指令,比如"点击坐标 (320, 450)"或"输入文字'搜索内容'"
- 执行层接收指令,操作鼠标和键盘
- 再次截图,开始下一轮循环
这个过程中,模型相当于一个只能通过"看屏幕"来感知世界的操作员。它每一步都需要理解当前界面状态,再决定怎样推进任务。
和 API 工具调用的区别
工具调用(Tool Calling)是让模型通过预定义的 API 与外部系统交互,前提是对方系统有对应接口。比如查天气、搜索网页、读写数据库,这些都可以用工具调用实现。
Computer Use 不需要对方提供 API,只要有图形界面就行。它的代价是:每一步都需要截图和模型推理,速度慢,费用高,也更容易出错——毕竟界面稍有变化,模型就可能找不到按钮。
两者并不对立。一个设计良好的 Agent 系统通常会优先使用 API,在没有 API 的场景才退回到 Computer Use。
实际能做什么
- 表单填写和提交:操作网页表单、政府网站、企业内部系统,这类系统往往没有 API
- 浏览器自动化:访问网站、点击链接、提取页面内容、下载文件
- 桌面软件操作:控制 Excel、Photoshop、本地数据库工具等无法通过 API 访问的应用
- 界面测试:像真实用户一样测试 UI,发现视觉和交互问题
- 跨应用工作流:在多个软件之间复制粘贴数据,完成系统间的数据迁移
风险和注意事项
Computer Use 的能力边界和风险都比普通工具调用大得多。
意外操作的风险很高。模型可能误点按钮、误提交表单、误删文件。一旦操作的是真实系统,很多动作不可撤销。
沙箱隔离是最重要的防护措施。生产实践中,Computer Use 通常需要在隔离的虚拟环境里运行,不直接接触生产数据、财务系统或重要账户。操作完成后,用户应审查结果再决定是否应用。
界面变化会影响稳定性。网站改版、弹窗出现、验证码触发,都可能让模型陷入困惑,导致任务失败或走错方向。
权限控制不可省略。开放 Computer Use 时,要明确限制它能访问哪些应用、哪些网站、能否联网、能否读写文件系统。最小权限原则在这里尤为重要。
和 Agent 的关系
Computer Use 可以理解为 Agent 获取"操作图形界面"能力的一种方式。Agent 的核心是循环决策,Computer Use 给它提供了一类特殊的"工具"——操作屏幕的能力。
一个完整的 GUI Agent 往往会把 Computer Use 和工具调用结合起来:能用 API 的地方用 API,只有界面的地方才截图操作。这样在保证覆盖面的同时,也尽量减少截图轮次带来的延迟和费用。