当前位置：首页 > article >正文

【技术干货】把 Claude 变成“本地自动化工程师”：Anthropic Computer Use 能力与实战落地指南

article 2026/4/1 3:12:53

摘要Anthropic 在 Claude Code 中正式引入 Computer Use 能力让大模型可以直接操作你的桌面应用和浏览器从“写代码助手”升级为“全栈自动化代理”。本文从原理、典型场景、跨平台替代方案到如何用统一 OpenAI 兼容 API基于 xuedingmao.com接入多模型 Agent给出完整的落地实践与 Python 代码示例。一、背景介绍从 ChatGPT 到“能点鼠标的代理”传统 LLM 助手ChatGPT、Claude、Gemini 等主要停留在“生成结果”层面输出代码、文档或命令然后还需要开发者自己去执行。Anthropic 在 3 月推出的Computer Use能力改变了这一点Claude 可以在你的 Mac 上打开应用、切换窗口操作浏览器、填写 Web 表单操作 Excel / Google Sheets在 CI 中直接跑 UI 流程测试与可视化调试甚至可以通过手机远程控制你的电脑借助 Cloud Cowork / Claude Work 之类的客户端近期Anthropic 又把 Computer Use 能力集成到了Claude CodeCloud Code CLI/IDE 插件中使得你可以不离开终端让 Claude 自动构建、运行、点击、输入、截图、验证整个应用及工作流。对开发者而言这意味着从“代码助手”到“自动化工程师”的跃迁。二、核心原理LLM 视觉 UI 控制通用 GUI Agent从开发者视角可以把 Claude Computer Use 理解为一个“三层架构”的智能代理系统1. 感知层屏幕与 UI 结构感知Claude 通过内置的视觉模型与系统 Hook 能力获得当前屏幕或窗口的状态屏幕截图Image识别 UI 元素按钮、输入框、表格、菜单等有时候还会结合 DOM / Accessibility Tree尤其在浏览器中这一层的目标是把“像素级屏幕”抽象为“语义化 UI 组件描述”。2. 决策层LLM 规划与工具使用在 Claude Code / Computer Use 模式下模型多了一类“工具”click(x, y | element_id)type(text, intoelement)scroll(...)wait_for(selector | condition)screenshot()LLM 在“扩展思考”模式下循环执行观察当前 UI 状态截图元素描述规划操作步骤类似 AGI 级 Chain-of-Thought调用相应的 UI 操作工具再次观察校验结果继续下一步3. 执行层系统与浏览器控制官方 Claude Code on macOS 使用的是原生客户端 CLI 集成的控制方式Mac 客户端负责获得屏幕内容与窗口结构通过系统 API 执行鼠标、键盘、窗口操作CLI / Cloud Code 负责把用户任务 UI 状态传给 LLM接收 LLM 工具调用指令转发给本地控制模块执行对于 Windows / Linux目前没有官方 Computer Use但视频中提到一个开源“Dev 浏览器 / Dev Agent”作为替代方案在一个“可编程浏览器Dev Browser”中执行 JavaScript / Python允许 Agent 通过“写代码执行”来控制浏览器类似有代表性的实现Playwright LLM、Selenium LLM、puppeteer LLM 等本质上是把“本地电脑控制”替换为“浏览器沙盒控制”。三、实战演示用 Python 搭建一个 Browser-Agent由于官方 Computer Use 目前仅支持部分 macOS 用户本文用更通用的方式演示通过 OpenAI 兼容 API 可编程浏览器构建一个“自动化表格填充 Agent”。这里我们使用模型claude-sonnet-4-6平台薛定猫 AIxuedingmao.comOpenAI 兼容模式任务自动生成“Top Movies Tracker” Google 表格并填充示例数据与视频中的 Demo 对齐3.1 环境准备pipinstallplaywright python-dotenv requests playwrightinstall3.2 配置环境变量.envXDM_API_KEY你在 xuedingmao.com 获取的密钥 XDM_BASE_URLhttps://xuedingmao.com3.3 Python 代码示例LLM Playwright 浏览器 AgentimportosimportjsonimportasynciofromdataclassesimportdataclassfromtypingimportList,Dict,Anyimportrequestsfromdotenvimportload_dotenvfromplaywright.async_apiimportasync_playwright load_dotenv()# # 一、封装 xuedingmao OpenAI 兼容调用# classXueDingMaoClient: 简单的 OpenAI 兼容客户端封装用于调用 claude-sonnet-4-6。 def__init__(self):self.api_keyos.getenv(XDM_API_KEY)self.base_urlos.getenv(XDM_BASE_URL,https://xuedingmao.com)ifnotself.api_key:raiseRuntimeError(请在 .env 中配置 XDM_API_KEY)self.chat_urlf{self.base_url}/v1/chat/completionsdefchat(self,messages:List[Dict[str,str]],model:strclaude-sonnet-4-6)-str: 调用聊天接口返回模型回复文本。 headers{Authorization:fBearer{self.api_key},Content-Type:application/json,}payload{model:model,messages:messages,temperature:0.2,}resprequests.post(self.chat_url,headersheaders,jsonpayload,timeout60)resp.raise_for_status()dataresp.json()returndata[choices][0][message][content]# # 二、定义 Browser-Agent 任务协议# dataclassclassBrowserAction: 描述一次浏览器动作用于由 LLM 规划后返回。 type:str# goto, click, fill, wait, ...selector:strtext:strurl:strdefparse_actions_from_llm(response:str)-List[BrowserAction]: 解析 LLM 返回的 JSON 动作列表。要求 LLM 输出严格 JSON 格式。 try:actions_datajson.loads(response)actions[]foriteminactions_data:actions.append(BrowserAction(typeitem.get(type,),selectoritem.get(selector,),textitem.get(text,),urlitem.get(url,)))returnactionsexceptjson.JSONDecodeErrorase:raiseValueError(fLLM 返回 JSON 解析失败:{e}\n原始内容:{response})# # 三、核心逻辑LLM 规划 Playwright 执行# SYSTEM_PROMPT 你是一个浏览器自动化规划器负责为 Playwright 生成动作序列。仅输出一个 JSON 数组每个元素是一个动作对象不要包含其他文本。动作对象字段 { type: goto | click | fill, url: 仅在 typegoto 时使用, selector: CSS 选择器, text: 仅在 typefill 时使用 } 约束 1. 严格输出有效 JSON最外层是数组。 2. 只生成高层逻辑需要的必要步骤。 3. 使用简洁但尽量稳健的 CSS 选择器。 USER_PROMPT 目标在浏览器中创建一个“Top Movies Tracker”Google Sheet并填充少量示例数据。步骤大致为 1. 访问 https://docs.google.com/spreadsheets/ 并创建一个新的空白表格。 2. 在第一行创建列Title, Year, Genre, Rating, Watched。 3. 在 A2:E6 填充 5 条示例电影条目Rating 为 1-10 分Watched 为 TRUE/FALSE。 4. 保持简单不需要复杂公式只需要一个便于演示的表格。请生成一系列动作让人类执行这些动作就可以完成整个流程。注意 - 假设用户已经登录 Google 账号。 - 不要处理登录场景。 asyncdefrun_browser_actions(actions:List[BrowserAction]): 使用 Playwright 执行 LLM 规划好的动作。 asyncwithasync_playwright()asp:browserawaitp.chromium.launch(headlessFalse)# headlessFalse 方便可视化调试pageawaitbrowser.new_page()fori,actinenumerate(actions,start1):print(f[Action{i}]{act})ifact.typegoto:awaitpage.goto(act.url,wait_untilnetworkidle)elifact.typeclick:awaitpage.click(act.selector,timeout15000)elifact.typefill:awaitpage.fill(act.selector,act.text,timeout15000)else:print(f未知动作类型:{act.type})# 为方便观察结果延迟一段时间awaitpage.wait_for_timeout(15000)awaitbrowser.close()defplan_actions_with_llm()-List[BrowserAction]: 调用薛定猫 AIclaude-sonnet-4-6规划浏览器动作。 clientXueDingMaoClient()responseclient.chat(messages[{role:system,content:SYSTEM_PROMPT},{role:user,content:USER_PROMPT},])print(LLM 原始输出,response)actionsparse_actions_from_llm(response)returnactionsif__name____main__:# 1. 先由 LLM 规划动作actionsplan_actions_with_llm()# 2. 再用 Playwright 执行这些动作asyncio.run(run_browser_actions(actions))3.4 说明与扩展上述代码的结构本质上模拟了“Claude Computer Use in Browser”LLM 只负责生成高层动作计划JSON本地 Playwright 负责执行实际 GUI 操作你可以进一步扩展加入截图工具page.screenshot并把结果回传给 LLM做“视觉调试”循环执行一部分动作 → 截图 → LLM 评估规划下一步加入错误恢复逻辑例如元素未找到时让 LLM 重新选择选择器四、注意事项与工程实践建议1. 权限与安全边界官方 Claude Computer Use 在本地执行任意 UI 操作务必注意启用前明确权限范围只在开发专用机器使用更安全不要在生产数据库或敏感系统上直接让 Agent 自动操作建议在虚拟机 / 容器内提供“沙盒环境”对于我们用 Playwright 的方案默认只控制浏览器相对安全仍需注意 Cookie / 登录态泄露风险2. 可靠性UI 变更与选择器问题LLM 生成的 CSS 选择器并不总是稳健建议对常用站点内部管理后台、运营系统手工设计更稳定的 selector把 selector 作为“工具配置”注入LLM 只选择动作顺序可以设计“视图校验回路”例如执行前/后截图 DOM 抽象交给 LLM 判断是否操作成功3. 模型选型与多模型集成在构建复杂 Agent 系统时经常需要多种模型协作高级决策Claude 4.6 / GPT-5.4 / Gemini 3 Pro轻量工具调用 / 文本处理小参数模型视觉任务支持多模态的 GPT / Claude / Gemini这时如果每个模型各用一套 SDK会导致接入代码重复、配置分散生产环境切换模型成本很高五、技术资源与平台推荐统一多模型的 OpenAI 兼容接口在上面的示例中我使用xuedingmao.com作为底层 LLM 服务端原因主要是工程上的聚合 500 主流大模型包括 GPT-5.4、Claude 4.6、Gemini 3 Pro 等新型号同一接口下即可切换不同厂商的模型适合做多模型对比与 A/B Test新模型实时首发API 兼容 OpenAI 标准基本保持与 OpenAI API 一致的chat/completions协议像本文这样把base_url换成https://xuedingmao.com API Key 即可无缝迁移统一接入接口降低多模型集成复杂度在 AI Agent 场景下可以非常方便地用一个“规划模型”如 Claude 4.6负责高层策略用另一个“工具模型”做文本/结构化解析代码层只是修改model字段不需要重写 SDK 逻辑从技术选型角度说这类聚合式平台更适合做前沿实验第一时间体验新模型做多模型对比和弹性调度做企业级 Agent 平台的底层 LLM 服务抽象层六、小结基于视频内容和目前的生态可以看到几个明显趋势LLM 正从“写代码”升级为“直接动手”的自动化工程师能打开应用、点击按钮、填表、截图、调试 UI官方 Claude Computer Use 把这一能力与 CLI / IDE 深度融合对 macOS Pro/Max 用户来说已经可以做到“不离开终端”的完整开发闭环对 Windows / Linux 开发者来说可编程浏览器 LLM 是一个现实可行的替代方案Playwright / Selenium OpenAI 兼容 API如薛定猫 AI即可快速构建多模型时代统一 API 网关是构建稳定 Agent 系统的关键基础设施避免被单一厂商锁死也能快速试用最新能力如果你在做自动化测试、运营工具、内部系统集成强烈建议把“LLM GUI 自动化”纳入技术路线哪怕先从浏览器场景切入也能极大提升开发与运维效率。#AI #大模型 #Python #机器学习 #技术实战

【技术干货】把 Claude 变成“本地自动化工程师”：Anthropic Computer Use 能力与实战落地指南

相关文章：

【技术干货】把 Claude 变成“本地自动化工程师”：Anthropic Computer Use 能力与实战落地指南

【深度解析】用 Superpowers 改造 AI 编码代理：从“快手实习生”到“有流程的工程师”

Scarab：让空洞骑士模组管理变得如此简单

手机号查询QQ号：技术解析与实用指南

AI爱好者成长手册：从“会用”到“用好”主流大模型的进阶之路

Gitee团队协作实战：从零到一掌握项目协同开发流程

4个维度解析Steam Achievement Manager：开源工具如何重塑游戏成就管理体验

媒体查询、事件绑定、对象拷贝等知识点总结

如何快速掌握MelonLoader：从零基础到精通Unity游戏模组加载的完整教程

Qwerty Learner单词难度分级：智能调整训练强度的终极指南

告别图形界面！用DM数据库的dlsql命令行工具，5分钟搞定日常数据库运维

【Java 21记录模式性能优化终极指南】：3个被90%开发者忽略的模式匹配陷阱及提速300%的实战方案

期权到期日别慌！手把手教你搞定上交所股票期权的行权与交割（附避坑清单）

7大维度测评：2023年开源付费墙绕过工具终极选择指南

别再只用外部中断了！用STM32F103的TIM2输入捕获，实现更稳定的旋转编码器读数

Android Studio中文界面终极配置指南：告别英文障碍，提升开发效率

终极指南：用OpenCore Legacy Patcher让旧Mac焕发新生的5个简单步骤

新手福音：借力卓晴式AI，在快马平台轻松完成你的首个网页项目

特朗普政府发布《国家人工智能立法框架》，多维度布局AI领域

MediaPipe人脸检测避坑指南：如何优化检测精度与性能（含模型选择建议）

Go AI 生态实战：从单机 RAG 到分布式智能服务架构演进

苏州沃虎电子（VOOHU）10/100M集成式RJ45连接器SYT111B002BA2A1D产品介绍

[特殊字符] Nano-Banana效果分享：电动工具齿轮箱高精度啮合关系可视化拆解图

AI写论文超厉害！4款AI论文生成工具，解决毕业论文写作难题！

用STM32和示波器搞定美的/格力空调红外遥控（附完整C代码）

深入OpenHarmony NAPI引擎：从‘@ohos.hilog’导入到so库加载的底层链路剖析

CentOS部署PHP项目完整步骤

智能表格在敏捷项目管理中的工时统计实践

springboot+vue基于web的美食外卖点餐平台的设外卖员商家

认知内耗：在亚马逊，为何品牌名内部的“关键词”正在相互厮杀