当前位置: 首页 > article >正文

Codex Computer Use 教 AI 看屏幕,HAR 流教 AI 发指令——谁才是真正的打工替身?

不用看API文档不用申请密钥。不需要AI“看屏幕”碰运气——录一段HARAI精确搞定一切。写完往 Openclaw 一丢你负责吃小龙虾它负责把消息发到群里。2026年4月AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新赋予了AI全新的“Computer Use”能力它拥有了自己的虚拟鼠标能在Mac后台“看、点、输”替你操作几乎任何桌面应用。全世界的开发者都在为此狂欢“AI终于能自己干活了”但在聚光灯之外真正的生产力爆破却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制。先别急着说“就这”。如果你认为让AI“看屏幕”是唯一的自动化捷径那你可能会白白浪费时间、金钱和算力。今天这篇文章就是要为你扒开“HAR录制自动化”的神秘面纱并把它和顶流的“OpenAI Computer Use”放在天平上称一称。看完你就知道为什么高手都在悄悄用前者而新手还在为后者的“幻觉误触”买单。 暴击开场为什么说“让AI看屏幕”是杀鸡用牛刀我们先来直视Codex Computer Use的真相OpenAI 官宣Codex 现在可以通过“看、点、输”的方式像真人一样操作你的Mac电脑和应用。它能自己移动光标能处理“没有API的软件”甚至能在后台并行工作。听起来是不是无敌了这简直就是钢铁侠的贾维斯冷静。我们来做一道残忍的算术题如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”让AI用视觉Computer Use来做这件事意味着 巨额Token费每一秒AI都在疯狂截屏、识别、分析坐标。这烧的全是API费。以GPT-5.4 Computer Use API为例每100万输出token要30美元一个稍微复杂的网页操作跑下来几毛钱几块钱就没了——而你原本只是想省30秒时间。 极低的效率AI必须像老年人上网一样“哦我看到了登录框……哦我现在移动鼠标去点它……哦我打一个字……”。执行一个5秒钟的操作AI可能需要反复截图验证30秒。 致命的幻觉今天它认出“提交”按钮了明天网站UI改了一个像素它可能就“瞎了”对着空白处疯狂点击。不可否认Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局比如修复一个Xcode里的游戏Bug。但对于你每天重复千遍的“标准机械动作”呢用Computer Use就是“用巡航导弹打蚊子”——猛是真猛贵也是真贵而且极大概率会误炸。 降维打击HAR录制的“精确制导”逻辑HAR (HTTP Archive)是什么它不是录屏它是浏览器“数据底层的监控录像”。当你在浏览器里登录、点按钮、填表单时背后其实是你的电脑向服务器发送了一堆加密的“信件”网络请求。录制HAR就是把这些“信件”的格式、内容、收件人地址一个字母不差地拷贝下来。这就是HAR录制自动化的降维打击逻辑不研究视觉不依赖API文档——直接复刻你自己的“数据对话”。过程极其暴力夺舍登录态F12 → Application → Cookies复制一串字符。OK现在你的AI脚本拥有了你的“通行证”。录制核心请求在Network里点一下录制做一个你想自动化的操作比如“新建任务”然后停止。AI 逆向工程把HAR丢给AI对它说“嘿把刚才那个‘创建任务的API’给我找出来写成Python脚本。”永动开启AI分析出了URL、Headers、Payload结构吐出一份精确到毫秒的执行脚本。核心差异在这一刻体现得淋漓尽致维度 Computer Use (视觉流) HAR 录制自动化 (数据流)核心逻辑看图识字模拟人类鼠标键盘直接发包模拟人类网络请求对UI变化的容忍度零容忍(改个样式就瞎)绝对免疫(只要后端API没变)执行速度30秒起步 (加载渲染、坐标定位)毫秒级(直连服务器)Token / 算力消耗极高(每一帧都在烧钱)近乎为零(一次性分析永久复刻)编程门槛无门槛 (理论上用嘴就行)零门槛(你只需录HARAI写代码)最适合场景一次性、跨软件、无API的罕见任务高频、重复、固定的业务流程 极限实战15分钟 VS 30秒用HAR再造一个飞书任务助手光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。场景假设你是一个项目经理每天你都要做同一件事把“用户反馈群”里的聊天精华手动敲到飞书多维表格里作为Bug追踪。这件事每天花掉你30分钟烦不胜烦且毫无价值。️ 方案 A使用 Codex Computer Use操作你对Codex说“去飞书群里把今天上午10点到12点标记为重要的消息提取关键Bug填到‘研发排期表’里。”AI执行过程AI截屏识别飞书群窗口。尝试通过图像找到“重要消息”标签如果群聊背景换了颜色或字体变了可能第一步就卡住。逐条滚动截屏OCR识别文字。切换到多维表格通过视觉找“添加一行”按钮。输入文字极其缓慢。结果耗时约 3-5 分钟如果中途没点错的话。费用约 $0.5 - $1.0 / 次 (取决于截屏张数)。风险一旦飞书改版UI这条自动化链直接报废。️ 方案 B使用 HAR 录制 Skill 脚本操作Step 1 (5分钟)打开飞书网页版 → F12 → 录制 → 点开一条消息 → 在多维表格里加一行。导出 task.har。Step 2 (10分钟)把 HAR 丢给 AI“分析这个文件找到‘发送群消息’和‘添加表格行’的API生成一个 Skill。”Step 3 (0分钟)AI 生成的 Python 脚本上线运行。结果耗时第一次15分钟搭建之后每天自动执行仅需 3秒。费用$0.000脚本在本地运行不发截图。风险即便飞书UI改得面目全非只要后端数据接口/open-apis/bitable/...没变脚本100%照常工作。哪个才是面向生产力的解法答案不言而喻。 终极形态当 Skill 遇见 Openclaw——你的嘴就是鼠标上面的技术你可能觉得“嗯很牛但我还是得打开终端敲命令运行脚本”格局小了。HAR录制生成的 Skill真正的最终归宿不是你的本地文件夹而是一个叫Openclaw的地方。Openclaw 是什么你可以把它理解为AI 的“手”和“脚”——一个专门用来运行这些SKILL.md和 Python 脚本的智能体环境。整个过程会变成这样一段魔幻现实主义体验你花 15 分钟录好 HARAI 帮你生成了一个名为“飞书群发助手”的 Skill 文件夹。你把这个文件夹直接拖进 Openclaw 的聊天框或者 它并关联这个技能。你关掉所有网页躺在椅子上拿起手机对着 Openclaw 说了一句人话“Hey Openclaw帮我在【摸鱼小分队】群里发一条消息就说今晚小龙虾局老地方我请了AI代班写代码必到。”⚡️ 下一秒发生了什么Codex Computer Use 做不到的事Codex Computer Use 的视角它睁开眼睛开始移动鼠标寻找飞书图标双击等待加载寻找搜索框输入“摸鱼小分队”点击进入寻找输入框打字寻找发送按钮点击发送。耗时 45 秒费用 $0.3且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。Openclaw HAR Skill 的视角它读取了你的技能说明书发现触发词是“发消息”和“小龙虾”。Openclaw 内部只干了一件事向飞书的服务器发送了一个极简的数据包。数据包里写着接收群ID是“摸鱼小分队”内容就是那段小龙虾邀约的文字。耗时 0.8 秒。费用 $0.000。成功率 100%。 为什么只有 HAR 流能让你“吃着小龙虾就把活干了”因为Openclaw Skill的组合把 AI 的执行逻辑从“模拟人类观察”降维到了“机器直接执行”。没有界面渲染等待不用等网页上那个菊花转完。没有坐标计算不用算聊天框距离屏幕左上角是 (1345, 678)。没有误触焦虑你不用担心 Openclaw 会不小心点开你昨晚看的淘宝链接。这就是为什么我说Codex Computer Use 是让 AI 替你“看电脑”你依然得守在旁边看着它别犯错。Openclaw HAR Skill 是让 AI 替你“发指令”你完全可以关机去吃小龙虾事情照样办妥。 完整对比表三足鼎立谁才是真·效率之王维度️ Codex Computer Use HAR 录制 HAR Openclaw (完全体)操作入口对 AI 描述屏幕内容对着终端敲代码对着手机说人话执行速度分钟级 (受UI加载限制)毫秒级 (纯后端)即时响应 (边聊边干)执行体验像在看一位老爷爷用电脑像在看黑客跑脚本像在吩咐一位隐形的贴身秘书安全性有概率点错、误删只发指定请求只执行预设的意图场景代入你喊 AI 去发小龙虾邀约你写了脚本定时发邀约你随口一说Openclaw 就把小龙虾局组好了费用 (几乎为0)️ 从零到一实操路线图保姆级对比版好了如果你已经被我说服这里有一份“HAR流”独家的极简生存指南。第一关获得AI的“肉身”——处理认证Computer Use 做法眼睁睁看着AI笨拙地输入账号密码或尝试保存全屏Cookies。HAR流做法直接把Cookie字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证AI拿着它就能畅通无阻。第二关传授“武功秘籍”——提取关键操作Computer Use 做法费尽心机写 Prompt“你要先看左边找到蓝色的按钮……”HAR流做法直接把 HAR 扔给 AI。你可以这样对 AI 说“在这个HAR文件中找出向https://api.xxx.com/task/create发送请求的那一条记录。把里面的数据格式提取出来把标题和描述替换成参数生成一段可运行的脚本。”第三关组装“战斗指令”——编写 Skill.md无论哪种技术AI都需要明确的指令。Computer Use 说明书长达10页的屏幕坐标描述和异常重试分支。HAR流说明书只需要用大白话告诉AI工作流先检查本地的 Cookie 文件有没有过期。执行创建任务的脚本标题用刚才你说的话。如果返回成功就报喜如果返回失败就提醒你重新登录网页。第四关终极部署——丢进 Openclaw将写好的技能说明和脚本放在一个文件夹。拖入 Openclaw。从此你只需要说话。 写在最后AI 时代的打工哲学别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。真正的生产力解放从来不是看 AI 表演怎么费力地点点点而是让 AI 在你看不见的地方把事情办得妥妥的。今晚就去吃小龙虾吧。打开浏览器录下那个你最讨厌的“发日报”操作丢给 AI 生成一个 Skill然后塞进 Openclaw。明天开始你负责思考它负责发送。这才是对重复劳动最优雅的复仇。如果这篇文章对你有帮助欢迎分享给同样被重复操作困扰的朋友。也欢迎在评论区聊聊你最想自动化哪个网站的操作或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约

相关文章:

Codex Computer Use 教 AI 看屏幕,HAR 流教 AI 发指令——谁才是真正的打工替身?

不用看API文档,不用申请密钥。 不需要AI“看屏幕”碰运气——录一段HAR,AI精确搞定一切。 写完往 Openclaw 一丢,你负责吃小龙虾,它负责把消息发到群里。2026年4月,AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的…...

苍穹外卖|DAY6-Redis和店铺营业状态设置模块

目录 九、Redis 1. Redis入门 1.1 Redis下载与安装 1.2 Redis服务启动与停止 1.3 Redis图形化工具 2. Redis数据类型 3. Redis常用命令 3.1 字符串操作命令 3.2 哈希操作命令 3.3 列表操作命令 3.4 集合操作命令 3.5 有序集合操作命令 3.6 通用命令 4. 在Java中操…...

一级-链式提升机(论文+CAD图纸)机械课程设计

在物料垂直输送领域,一级-链式提升机凭借其结构紧凑、运行稳定的特点,成为工业场景中不可或缺的基础设备。其核心作用在于通过链条牵引料斗,实现物料从低处到高处的连续输送,尤其适用于粉状、颗粒状或小块状物料的短距离提升。相比…...

别再傻傻用pip了!用Anaconda的conda管理Python环境,效率提升不止一点点

从pip到conda:Python环境管理的效率革命 在Python开发的世界里,环境管理一直是个让人头疼的问题。想象一下这样的场景:你正在开发一个新项目,需要特定版本的NumPy和Pandas,但你的另一个项目却依赖这些库的不同版本。传…...

别再只会 make 了!Makefile 的 -f、-n、-j 参数实战指南(附常用场景)

解锁 Makefile 高阶技巧:-f、-n、-j 参数深度实战手册 当你已经熟悉了 make 的基本用法,却发现构建速度跟不上项目增长,或是调试复杂的构建规则时频繁踩坑,这篇文章就是为你准备的。我们将深入探讨三个能显著提升效率的 make 参数…...

【SQL注入】SQLMAP v1.10.3 稳定汉化版

简介 CN_Sqlmap 是由 GitHub 开发者 Datch666 基于开源渗透测试工具 sqlmap 深度汉化的版本,专为中文用户优化,降低英语使用门槛。该工具专注于自动化检测和利用 Web 应用程序中的SQL 注入漏洞,帮助安全测试人员高效验证目标系统的安全性。通…...

x86‌汇编 REPE CMPSB‌ 指令学习

REPE CMPSB‌ 是 x86 汇编语言中用于‌逐字节比较两个字符串‌的组合指令;‌CMPSB‌:比较两个内存区域中的字节,分别由 DS:SI 和 ES:DI 指向。 比较后会设置标志寄存器中的 ‌ZF(零标志位)‌:若两字节相等&…...

CSS如何制作悬停文字下划线动画_利用width过渡

用width过渡原生text-decoration无效,因下划线非独立元素;应使用::after伪元素配合transform: scaleX()实现稳定渐变动画,并注意中英文混排宽度偏差及移动端hover不可靠问题。hover下划线动画用width过渡为什么常失效直接给 text-decoration:…...

【AI面试八股文 | 面试题库】AI工程师面试题库:100+来源的系统性解题思路

2026年3月,一个港中深的研究生在牛客网发了篇阿里云AI Infra二面复盘帖。 1帖子开头写着:「整体感受是,这轮不是那种偏八股或者偏刷题的面试,更像是围绕项目经历一路深挖,看你到底有没有真的做过优化,也看…...

云计算Linux——基础操作命令(一)

前言在当今的技术环境中,高效的工具选择对开发者和系统管理员至关重要。Linux作为一个强大的开源操作系统,以其稳定性、灵活性和丰富的命令行生态著称,尤其适用于服务器管理、开发环境搭建及自动化任务处理。与此同时,MobaXterm P…...

Wan2.2-I2V-A14B一文详解:Diffusers pipeline定制与自定义scheduler实践

Wan2.2-I2V-A14B一文详解:Diffusers pipeline定制与自定义scheduler实践 1. 镜像概述与核心能力 Wan2.2-I2V-A14B是专为文生视频任务优化的私有部署镜像,基于RTX 4090D 24GB显存和CUDA 12.4环境深度定制。该镜像内置完整的运行环境和优化组件&#xff…...

FlowState Lab 赋能智能运维:服务器异常波动检测与根因分析

FlowState Lab 赋能智能运维:服务器异常波动检测与根因分析 1. 运维工程师的日常困境 凌晨三点,刺耳的告警铃声把张工从睡梦中惊醒。监控大屏上,核心业务集群的CPU使用率曲线像过山车一样剧烈波动。他揉了揉发红的眼睛,开始逐一…...

腾兴热点 | 马斯克打造超级计算机集群 小鹏从车企到AI集团 游宝阁用户突破5千万 Sora负责人离职

2026 全球 AI 与科技产业深度观察:算力军备竞赛、企业战略重构与行业格局重塑2026 年,全球科技产业正迎来新一轮变革浪潮,AI 算力竞赛持续白热化,传统车企加速向科技生态转型,AI 赛道战略收缩与技术落地并行推进&#…...

如何用 dispatchEvent 在 window 全局触发自定义的消息通知

直接在window上用dispatchEvent触发自定义消息通知,核心是创建带数据的CustomEvent并派发到全局作用域;通过new CustomEvent(type,{detail:data})创建事件,window.dispatchEvent()派发,可统一封装为window.emit()函数,…...

CSS如何解决栅格重叠问题_使用Grid-area明确划分元素占位

grid-area 未生效的主因是父容器未设置 display: grid;必须确保父元素声明 display: grid 或 inline-grid,且 grid-area 值与 grid-template-areas 中命名严格一致(含引号、空格、换行),并用 DevTools 验证 computed 样…...

AGI自主编写0day Exploit仅需23秒?实测GPT-5、Claude-4、Qwen-AGI在CVE-2024-XXXX系列漏洞上的武器化效率对比

第一章:AGI的网络安全攻防能力 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能(AGI)在网络安全领域正展现出远超传统AI系统的动态攻防潜力——它不仅能实时解析零日漏洞利用链,还可自主构建对抗性样本绕过多层检测机…...

AGI能否真正接管火电厂DCS?深度拆解华能集团“智核一号”项目——2026奇点大会唯一通过TÜV莱茵认证的自主决策案例

第一章:2026奇点智能技术大会:AGI与能源管理 2026奇点智能技术大会(https://ml-summit.org) AGI驱动的实时电网优化范式 本届大会首次公开展示了基于自主推理型AGI架构的分布式能源调度系统“GridMind-7”,该系统在德国鲁尔工业区试点中实现…...

SDMatte模型部署故障排查手册:从环境配置到推理失败的常见问题

SDMatte模型部署故障排查手册:从环境配置到推理失败的常见问题 1. 引言 最近在星图平台部署SDMatte模型时,遇到了不少坑。作为一款强大的图像抠图模型,SDMatte在实际部署过程中可能会遇到各种环境配置和调用问题。本文将汇总我在部署过程中…...

伏羲天气预报开源生态:复旦FuXi与Pangu-Weather、FourCastNet对比分析

伏羲天气预报开源生态:复旦FuXi与Pangu-Weather、FourCastNet对比分析 天气预报,这个看似传统的气象学领域,正经历着一场由人工智能驱动的深刻变革。过去,我们依赖复杂的物理方程和超级计算机进行数值模拟,而现在&…...

工业相机“心跳”监测脚本(C# 版) 支持海康 / Basler / 堡盟工业相机

工业相机“心跳”监测脚本(C# 版) 支持海康 / Basler / 堡盟,一套代码搞定多品牌在线状态监控!“产线半夜停机,发现相机离线了?” “PLC 发了触发信号,但相机没反应?” “现场网络一…...

JDK动态代理为什么只能代理有接口的类?

在Java基础面试中,“JDK动态代理为什么只能代理有接口的类”是高频核心考点,尤其在考察Spring AOP底层原理时,经常作为前置提问出现。很多开发者仅能记住“必须有接口”这个结论,却无法说清底层逻辑、继承约束和代码验证细节&…...

中小企业降本妙招:Hunyuan免费翻译模型部署实战

中小企业降本妙招:Hunyuan免费翻译模型部署实战 1. 为什么中小企业需要关注翻译成本? 对于中小企业来说,国际化业务拓展往往面临一个现实问题:翻译成本。传统的商业翻译API虽然方便,但按字数或调用次数计费的模式&am…...

2026.4.19

大概在2024年开始,我尝试了写下东西表达,因为我实在不知道该如何写作,从小学的是应考的八股,“写作”对于我而言是模糊的概念。我甚至从网络/社交平台开始写留言开始,我意识到如果你的表达不够准确,你就要被…...

AGI工程师画像重构迫在眉睫,如何用LLM+行为埋点实现候选人真实能力穿透式验证?

第一章:AGI工程师画像重构迫在眉睫,如何用LLM行为埋点实现候选人真实能力穿透式验证? 2026奇点智能技术大会(https://ml-summit.org) 传统AGI工程师评估严重依赖简历关键词匹配与结构化面试,导致“Paper AGI”泛滥——候选人能复…...

山东大学项目实训个人博客(1)构建AlgoTutor的安全代码执行沙箱

​ 允许用户提交任意代码执行是最大的安全风险。本文将详细阐述我为AlgoTutor构建安全沙箱的“纵深防御”策略,从进程隔离、资源限制到系统调用过滤,确保100%的沙箱逃逸防御成功率。我的核心任务之一是打造一个“牢笼”,让用户代码在其中安全…...

WSL 极速部署 llama.cpp:三步搞定 CPU、GPU 本地运行大模型(CUDA 加速)

摘要: 想在 Windows 下本地跑大模型,又不想搞双系统?WSL llama.cpp 是最轻量、高效的选择。本文将带你一步步完成环境配置、源码编译(可选 NVIDIA GPU 加速),并下载模型直接运行。无需复杂依赖&#xff0c…...

语音转文字神器FunASR体验:支持中英日韩多语言,识别效果惊艳

语音转文字神器FunASR体验:支持中英日韩多语言,识别效果惊艳 1. 为什么选择FunASR语音识别 在日常工作和生活中,我们经常需要将语音内容转换为文字。无论是会议记录、采访整理,还是视频字幕制作,传统的手工转录方式既…...

Pixel Language Portal 开发环境搭建:Windows 系统下 Visual Studio 与 Python 联调指南

Pixel Language Portal 开发环境搭建:Windows 系统下 Visual Studio 与 Python 联调指南 1. 前言:为什么需要跨语言开发环境 在开发Pixel Language Portal这类涉及多种编程语言的项目时,经常需要同时处理Python脚本和C扩展模块。Windows平台…...

Pi0机器人模型亲测体验:Web界面操作简单,动作生成快速

Pi0机器人模型亲测体验:Web界面操作简单,动作生成快速 1. 项目概述与体验背景 Pi0是一个创新的视觉-语言-动作流模型,专为通用机器人控制设计。作为一名长期关注机器人控制技术的开发者,我有幸体验了这个项目的Web演示界面。与传…...

忍者像素绘卷参数详解:Steps=20/30/50对16-Bit像素块清晰度影响可视化分析

忍者像素绘卷参数详解:Steps20/30/50对16-Bit像素块清晰度影响可视化分析 1. 引言:像素艺术的生成挑战 在复古游戏风格创作中,16-Bit像素艺术因其独特的视觉魅力而备受青睐。忍者像素绘卷作为一款专为像素艺术优化的生成工具,其…...