当前位置: 首页 > article >正文

【技术干货】把 Claude 变成“本地自动化工程师”:Anthropic Computer Use 能力与实战落地指南

摘要Anthropic 在 Claude Code 中正式引入 Computer Use 能力让大模型可以直接操作你的桌面应用和浏览器从“写代码助手”升级为“全栈自动化代理”。本文从原理、典型场景、跨平台替代方案到如何用统一 OpenAI 兼容 API基于 xuedingmao.com接入多模型 Agent给出完整的落地实践与 Python 代码示例。一、背景介绍从 ChatGPT 到“能点鼠标的代理”传统 LLM 助手ChatGPT、Claude、Gemini 等主要停留在“生成结果”层面输出代码、文档或命令然后还需要开发者自己去执行。Anthropic 在 3 月推出的Computer Use能力改变了这一点Claude 可以在你的 Mac 上打开应用、切换窗口操作浏览器、填写 Web 表单操作 Excel / Google Sheets在 CI 中直接跑 UI 流程测试与可视化调试甚至可以通过手机远程控制你的电脑借助 Cloud Cowork / Claude Work 之类的客户端近期Anthropic 又把 Computer Use 能力集成到了Claude CodeCloud Code CLI/IDE 插件中使得你可以不离开终端让 Claude 自动构建、运行、点击、输入、截图、验证整个应用及工作流。对开发者而言这意味着从“代码助手”到“自动化工程师”的跃迁。二、核心原理LLM 视觉 UI 控制 通用 GUI Agent从开发者视角可以把 Claude Computer Use 理解为一个“三层架构”的智能代理系统1. 感知层屏幕与 UI 结构感知Claude 通过内置的视觉模型与系统 Hook 能力获得当前屏幕或窗口的状态屏幕截图Image识别 UI 元素按钮、输入框、表格、菜单等有时候还会结合 DOM / Accessibility Tree尤其在浏览器中这一层的目标是把“像素级屏幕”抽象为“语义化 UI 组件描述”。2. 决策层LLM 规划与工具使用在 Claude Code / Computer Use 模式下模型多了一类“工具”click(x, y | element_id)type(text, intoelement)scroll(...)wait_for(selector | condition)screenshot()LLM 在“扩展思考”模式下循环执行观察当前 UI 状态截图 元素描述规划操作步骤类似 AGI 级 Chain-of-Thought调用相应的 UI 操作工具再次观察校验结果继续下一步3. 执行层系统与浏览器控制官方 Claude Code on macOS 使用的是原生客户端 CLI 集成的控制方式Mac 客户端负责获得屏幕内容与窗口结构通过系统 API 执行鼠标、键盘、窗口操作CLI / Cloud Code 负责把用户任务 UI 状态传给 LLM接收 LLM 工具调用指令转发给本地控制模块执行对于 Windows / Linux目前没有官方 Computer Use但视频中提到一个开源“Dev 浏览器 / Dev Agent”作为替代方案在一个“可编程浏览器Dev Browser”中执行 JavaScript / Python允许 Agent 通过“写代码 执行”来控制浏览器类似有代表性的实现Playwright LLM、Selenium LLM、puppeteer LLM 等本质上是把“本地电脑控制”替换为“浏览器沙盒控制”。三、实战演示用 Python 搭建一个 Browser-Agent由于官方 Computer Use 目前仅支持部分 macOS 用户本文用更通用的方式演示通过 OpenAI 兼容 API 可编程浏览器构建一个“自动化表格填充 Agent”。这里我们使用模型claude-sonnet-4-6平台薛定猫 AIxuedingmao.comOpenAI 兼容模式任务自动生成“Top Movies Tracker” Google 表格并填充示例数据与视频中的 Demo 对齐3.1 环境准备pipinstallplaywright python-dotenv requests playwrightinstall3.2 配置环境变量.envXDM_API_KEY你在 xuedingmao.com 获取的密钥 XDM_BASE_URLhttps://xuedingmao.com3.3 Python 代码示例LLM Playwright 浏览器 AgentimportosimportjsonimportasynciofromdataclassesimportdataclassfromtypingimportList,Dict,Anyimportrequestsfromdotenvimportload_dotenvfromplaywright.async_apiimportasync_playwright load_dotenv()# # 一、封装 xuedingmao OpenAI 兼容调用# classXueDingMaoClient: 简单的 OpenAI 兼容客户端封装用于调用 claude-sonnet-4-6。 def__init__(self):self.api_keyos.getenv(XDM_API_KEY)self.base_urlos.getenv(XDM_BASE_URL,https://xuedingmao.com)ifnotself.api_key:raiseRuntimeError(请在 .env 中配置 XDM_API_KEY)self.chat_urlf{self.base_url}/v1/chat/completionsdefchat(self,messages:List[Dict[str,str]],model:strclaude-sonnet-4-6)-str: 调用聊天接口返回模型回复文本。 headers{Authorization:fBearer{self.api_key},Content-Type:application/json,}payload{model:model,messages:messages,temperature:0.2,}resprequests.post(self.chat_url,headersheaders,jsonpayload,timeout60)resp.raise_for_status()dataresp.json()returndata[choices][0][message][content]# # 二、定义 Browser-Agent 任务协议# dataclassclassBrowserAction: 描述一次浏览器动作用于由 LLM 规划后返回。 type:str# goto, click, fill, wait, ...selector:strtext:strurl:strdefparse_actions_from_llm(response:str)-List[BrowserAction]: 解析 LLM 返回的 JSON 动作列表。 要求 LLM 输出严格 JSON 格式。 try:actions_datajson.loads(response)actions[]foriteminactions_data:actions.append(BrowserAction(typeitem.get(type,),selectoritem.get(selector,),textitem.get(text,),urlitem.get(url,)))returnactionsexceptjson.JSONDecodeErrorase:raiseValueError(fLLM 返回 JSON 解析失败:{e}\n原始内容:{response})# # 三、核心逻辑LLM 规划 Playwright 执行# SYSTEM_PROMPT 你是一个浏览器自动化规划器负责为 Playwright 生成动作序列。 仅输出一个 JSON 数组每个元素是一个动作对象不要包含其他文本。 动作对象字段 { type: goto | click | fill, url: 仅在 typegoto 时使用, selector: CSS 选择器, text: 仅在 typefill 时使用 } 约束 1. 严格输出有效 JSON最外层是数组。 2. 只生成高层逻辑需要的必要步骤。 3. 使用简洁但尽量稳健的 CSS 选择器。 USER_PROMPT 目标在浏览器中创建一个“Top Movies Tracker”Google Sheet并填充少量示例数据。 步骤大致为 1. 访问 https://docs.google.com/spreadsheets/ 并创建一个新的空白表格。 2. 在第一行创建列Title, Year, Genre, Rating, Watched。 3. 在 A2:E6 填充 5 条示例电影条目Rating 为 1-10 分Watched 为 TRUE/FALSE。 4. 保持简单不需要复杂公式只需要一个便于演示的表格。 请生成一系列动作让人类执行这些动作就可以完成整个流程。 注意 - 假设用户已经登录 Google 账号。 - 不要处理登录场景。 asyncdefrun_browser_actions(actions:List[BrowserAction]): 使用 Playwright 执行 LLM 规划好的动作。 asyncwithasync_playwright()asp:browserawaitp.chromium.launch(headlessFalse)# headlessFalse 方便可视化调试pageawaitbrowser.new_page()fori,actinenumerate(actions,start1):print(f[Action{i}]{act})ifact.typegoto:awaitpage.goto(act.url,wait_untilnetworkidle)elifact.typeclick:awaitpage.click(act.selector,timeout15000)elifact.typefill:awaitpage.fill(act.selector,act.text,timeout15000)else:print(f未知动作类型:{act.type})# 为方便观察结果延迟一段时间awaitpage.wait_for_timeout(15000)awaitbrowser.close()defplan_actions_with_llm()-List[BrowserAction]: 调用薛定猫 AIclaude-sonnet-4-6规划浏览器动作。 clientXueDingMaoClient()responseclient.chat(messages[{role:system,content:SYSTEM_PROMPT},{role:user,content:USER_PROMPT},])print(LLM 原始输出,response)actionsparse_actions_from_llm(response)returnactionsif__name____main__:# 1. 先由 LLM 规划动作actionsplan_actions_with_llm()# 2. 再用 Playwright 执行这些动作asyncio.run(run_browser_actions(actions))3.4 说明与扩展上述代码的结构本质上模拟了“Claude Computer Use in Browser”LLM 只负责生成高层动作计划JSON本地 Playwright 负责执行实际 GUI 操作你可以进一步扩展加入截图工具page.screenshot并把结果回传给 LLM做“视觉调试”循环执行一部分动作 → 截图 → LLM 评估 规划下一步加入错误恢复逻辑例如元素未找到时让 LLM 重新选择选择器四、注意事项与工程实践建议1. 权限与安全边界官方 Claude Computer Use 在本地执行任意 UI 操作务必注意启用前明确权限范围只在开发专用机器使用更安全不要在生产数据库或敏感系统上直接让 Agent 自动操作建议在虚拟机 / 容器内提供“沙盒环境”对于我们用 Playwright 的方案默认只控制浏览器相对安全仍需注意 Cookie / 登录态泄露风险2. 可靠性UI 变更与选择器问题LLM 生成的 CSS 选择器并不总是稳健建议对常用站点内部管理后台、运营系统手工设计更稳定的 selector把 selector 作为“工具配置”注入LLM 只选择动作顺序可以设计“视图校验回路”例如执行前/后截图 DOM 抽象交给 LLM 判断是否操作成功3. 模型选型与多模型集成在构建复杂 Agent 系统时经常需要多种模型协作高级决策Claude 4.6 / GPT-5.4 / Gemini 3 Pro轻量工具调用 / 文本处理小参数模型视觉任务支持多模态的 GPT / Claude / Gemini这时如果每个模型各用一套 SDK会导致接入代码重复、配置分散生产环境切换模型成本很高五、技术资源与平台推荐统一多模型的 OpenAI 兼容接口在上面的示例中我使用xuedingmao.com作为底层 LLM 服务端原因主要是工程上的聚合 500 主流大模型包括 GPT-5.4、Claude 4.6、Gemini 3 Pro 等新型号同一接口下即可切换不同厂商的模型适合做多模型对比与 A/B Test新模型实时首发API 兼容 OpenAI 标准基本保持与 OpenAI API 一致的chat/completions协议像本文这样把base_url换成https://xuedingmao.com API Key 即可无缝迁移统一接入接口降低多模型集成复杂度在 AI Agent 场景下可以非常方便地用一个“规划模型”如 Claude 4.6负责高层策略用另一个“工具模型”做文本/结构化解析代码层只是修改model字段不需要重写 SDK 逻辑从技术选型角度说这类聚合式平台更适合做前沿实验第一时间体验新模型做多模型对比和弹性调度做企业级 Agent 平台的底层 LLM 服务抽象层六、小结基于视频内容和目前的生态可以看到几个明显趋势LLM 正从“写代码”升级为“直接动手”的自动化工程师能打开应用、点击按钮、填表、截图、调试 UI官方 Claude Computer Use 把这一能力与 CLI / IDE 深度融合对 macOS Pro/Max 用户来说已经可以做到“不离开终端”的完整开发闭环对 Windows / Linux 开发者来说可编程浏览器 LLM 是一个现实可行的替代方案Playwright / Selenium OpenAI 兼容 API如薛定猫 AI即可快速构建多模型时代统一 API 网关是构建稳定 Agent 系统的关键基础设施避免被单一厂商锁死也能快速试用最新能力如果你在做自动化测试、运营工具、内部系统集成强烈建议把“LLM GUI 自动化”纳入技术路线哪怕先从浏览器场景切入也能极大提升开发与运维效率。#AI #大模型 #Python #机器学习 #技术实战

相关文章:

【技术干货】把 Claude 变成“本地自动化工程师”:Anthropic Computer Use 能力与实战落地指南

摘要 Anthropic 在 Claude Code 中正式引入 Computer Use 能力,让大模型可以直接操作你的桌面应用和浏览器,从“写代码助手”升级为“全栈自动化代理”。本文从原理、典型场景、跨平台替代方案,到如何用统一 OpenAI 兼容 API(基于…...

【深度解析】用 Superpowers 改造 AI 编码代理:从“快手实习生”到“有流程的工程师”

摘要 本文从 Superpowers 开源项目出发,拆解它背后的「AI 软件开发方法论」:如何通过技能(Skills)、子代理(Sub-agents)、规则(Rules)和 Git 工作流,让 AI 编码代理不再只…...

Scarab:让空洞骑士模组管理变得如此简单

Scarab:让空洞骑士模组管理变得如此简单 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 你是否曾经因为空洞骑士模组安装的复杂流程而头疼?是否在寻找依…...

手机号查询QQ号:技术解析与实用指南

手机号查询QQ号:技术解析与实用指南 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 当你更换手机后忘记QQ账号,或需要验证手机号与QQ的绑定关系时,phone2qq项目提供了一种高效解决方案。这是一个基…...

AI爱好者成长手册:从“会用”到“用好”主流大模型的进阶之路

许多AI爱好者在使用大模型一段时间后会陷入一个困惑:为什么别人能用AI写出惊艳的文案、完成复杂的分析,而自己却总是得到平庸的结果?答案往往不在于模型的选择,而在于使用方式。经过在RskAi(www.rsk.cn) 平…...

Gitee团队协作实战:从零到一掌握项目协同开发流程

1. 为什么选择Gitee进行团队协作开发 作为一个经历过多次团队协作开发的老手,我强烈推荐Gitee作为国内团队的代码托管平台。相比其他平台,Gitee的服务器在国内,访问速度更快,而且完全符合国内开发者的使用习惯。记得我第一次带团队…...

4个维度解析Steam Achievement Manager:开源工具如何重塑游戏成就管理体验

4个维度解析Steam Achievement Manager:开源工具如何重塑游戏成就管理体验 【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager 一、困境诊断&#…...

媒体查询、事件绑定、对象拷贝等知识点总结

一、媒体查询(CSS3 响应式设计)1. 基本语法cssmedia 媒体类型 and (媒体特性) {/* CSS 规则 */ }2. 常用媒体类型值说明screen电脑屏幕、平板、手机等print打印机all所有设备(默认)3. 常用媒体特性特性说明max-width最大宽度&…...

如何快速掌握MelonLoader:从零基础到精通Unity游戏模组加载的完整教程

如何快速掌握MelonLoader:从零基础到精通Unity游戏模组加载的完整教程 【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader …...

Qwerty Learner单词难度分级:智能调整训练强度的终极指南

Qwerty Learner单词难度分级:智能调整训练强度的终极指南 【免费下载链接】qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers 项目地址: https://…...

告别图形界面!用DM数据库的dlsql命令行工具,5分钟搞定日常数据库运维

命令行利器dlsql:DM数据库高效运维实战指南 在数据库运维的世界里,图形化界面固然直观,但真正的高手往往更青睐命令行工具带来的高效与灵活。DM数据库的dlsql命令行客户端,就是这样一把被许多DBA私藏的"瑞士军刀"。 1. …...

【Java 21记录模式性能优化终极指南】:3个被90%开发者忽略的模式匹配陷阱及提速300%的实战方案

第一章:Java 21记录模式性能优化全景概览Java 21 引入的记录模式(Record Patterns)不仅提升了模式匹配的表达力,更在JVM层面实现了多项关键性能优化。通过与模式匹配(Pattern Matching for instanceof)和解…...

期权到期日别慌!手把手教你搞定上交所股票期权的行权与交割(附避坑清单)

期权到期日实战指南:从行权准备到交割避坑全流程解析 手机屏幕上的红色倒计时提醒着期权合约即将到期,作为刚接触期权交易不久的新手,此刻最需要的不再是复杂的概念解释,而是一份能握在手中的应急操作清单。本文将用最直白的语言拆…...

7大维度测评:2023年开源付费墙绕过工具终极选择指南

7大维度测评:2023年开源付费墙绕过工具终极选择指南 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在数字内容访问需求日益增长的今天,选择一款高效可靠的开源…...

别再只用外部中断了!用STM32F103的TIM2输入捕获,实现更稳定的旋转编码器读数

旋转编码器信号捕获:STM32F103定时器输入捕获模式实战解析 旋转编码器作为工业控制和消费电子中的核心位置传感器,其信号处理的稳定性直接影响系统性能。许多开发者习惯采用外部中断方式读取AB相脉冲,但在高速旋转或存在机械抖动的场景下&…...

Android Studio中文界面终极配置指南:告别英文障碍,提升开发效率

Android Studio中文界面终极配置指南:告别英文障碍,提升开发效率 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本) 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePac…...

终极指南:用OpenCore Legacy Patcher让旧Mac焕发新生的5个简单步骤

终极指南:用OpenCore Legacy Patcher让旧Mac焕发新生的5个简单步骤 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否还在为手中的旧款Mac无法…...

新手福音:借力卓晴式AI,在快马平台轻松完成你的首个网页项目

作为一个刚接触编程的新手,想要创建个人网页却不知从何下手是很常见的情况。最近我发现了一个特别适合新手的组合方案:用AI生成代码在线平台实时调试。下面记录我的完整实践过程,希望能帮到同样想入门的朋友。 明确需求清单 首先梳理出网页需…...

特朗普政府发布《国家人工智能立法框架》,多维度布局AI领域

【《国家人工智能立法框架》六大核心目标锚定AI发展方向】特朗普政府发布的《国家人工智能立法框架》,意在通过统一国家政策确保美国在AI领域的全球领先地位。该框架包含六大核心目标,分别是保护儿童与赋能家长、维护与强化美国社区、尊重知识产权与支持…...

MediaPipe人脸检测避坑指南:如何优化检测精度与性能(含模型选择建议)

MediaPipe人脸检测实战优化:从参数调优到模型部署的完整指南 人脸检测作为计算机视觉的基础任务,其性能直接影响后续的面部分析效果。MediaPipe提供的轻量级解决方案在移动端和边缘设备上表现出色,但实际应用中常遇到误检、漏检或性能瓶颈问题…...

Go AI 生态实战:从单机 RAG 到分布式智能服务架构演进

Go AI 生态实战:从单机 RAG 到分布式智能服务架构演进 摘要:本文面向具备后端与架构背景的技术人员,系统讲透 Go 在 AI 应用落地中的工程化方法。文章不再停留在“调用一个模型接口”的层面,而是从 RAG 原理、服务拆分、索引构建、高并发治理、缓存策略、容错机制、可观测性…...

苏州沃虎电子(VOOHU)10/100M集成式RJ45连接器SYT111B002BA2A1D产品介绍

苏州沃虎电子科技有限公司(品牌:VOOHU)供应的 SYT111B002BA2A1D 是一款高可靠性集成式RJ45连接器,专为10/100M以太网应用设计。该产品采用90侧插DIP封装,内置网络变压器,具备工业级宽温工作能力和优异的信号…...

[特殊字符] Nano-Banana效果分享:电动工具齿轮箱高精度啮合关系可视化拆解图

Nano-Banana效果分享:电动工具齿轮箱高精度啮合关系可视化拆解图 你有没有想过,一个复杂的电动工具内部到底长什么样?那些精密的齿轮是如何咬合在一起,将电机的旋转变成强大动力的?传统的产品说明书往往只有一张模糊的…...

AI写论文超厉害!4款AI论文生成工具,解决毕业论文写作难题!

还在为撰写期刊论文而烦恼吗?面对成堆的文献、复杂的格式要求以及无休止的修改,许多学术人员常常感到效率低下。这并不奇怪!不过,不必太担心,以下将推荐4款实测有效的AI论文写作工具,它们能帮助你在论文文献…...

用STM32和示波器搞定美的/格力空调红外遥控(附完整C代码)

STM32实战:从示波器捕获到空调红外协议逆向全解析 红外遥控技术看似简单,却蕴含着精妙的时序设计和协议逻辑。作为一名长期混迹于硬件开发领域的工程师,我经常遇到需要逆向控制家电的场景。最近在智能家居项目中,就遇到了需要通过…...

深入OpenHarmony NAPI引擎:从‘@ohos.hilog’导入到so库加载的底层链路剖析

深入OpenHarmony NAPI引擎:从‘ohos.hilog’导入到so库加载的底层链路剖析 当开发者在OpenHarmony应用中写下import hilog from ohos.hilog时,背后隐藏着一套精密的系统级协作机制。这条看似简单的语句,实际上触发了从JavaScript语法解析到原…...

CentOS部署PHP项目完整步骤

CentOS 7.9 部署 PHP 7.4 MySQL 5.7.44 完整步骤 由于 CentOS 7 已于 2024 年 6 月 30 日停止官方维护,原有的 yum 源已不可用,因此必须首先更换为阿里云镜像源才能正常安装软件。 一、系统环境准备 1.1 更换阿里云 YUM 源 # 1. 备份原有源 mv /etc/yum…...

智能表格在敏捷项目管理中的工时统计实践

1. 为什么敏捷团队需要智能工时统计 在敏捷开发中,两周一次的迭代就像一场短跑比赛。我见过太多团队在冲刺过半时才发现工时严重超支,这时候再调整已经来不及了。传统Excel表格需要手动更新公式,光是合并不同成员的工作量报表就能消耗半天时间…...

springboot+vue基于web的美食外卖点餐平台的设外卖员商家

目录同行可拿货,招校园代理 ,本人源头供货商外卖员功能分析商家功能分析技术实现要点项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 外卖员功能分析 外卖员在美食外卖点餐平台中的核心…...

认知内耗:在亚马逊,为何品牌名内部的“关键词”正在相互厮杀

在亚马逊的品牌丛林中,最隐蔽的悲剧莫过于:你精心构思的品牌名,其内部的各个组成部分(如“欧文斯”、“康宁”、“玻璃纤维”),并未协同指向你,反而各自激活了消费者心智中其他更强大品牌的“认…...