OpenAI Operator:AI Agent 大战的号角,从 “工具” 到 “助手” 的飞跃
想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!
各位 AI 爱好者们,今天我们来聊聊 OpenAI 的最新力作——Operator。如果说之前的 ChatGPT 只是 AI 领域的 “工具”,那么这次的 Operator 则可以称得上是真正的 “助手” 了。它的发布,标志着 AI 技术已经扎扎实实地进入了第三阶段:智能体(Agents)。

从 “工具” 到 “助手”:AI 的进化
你有没有觉得,以往的 AI 更像是一个 “工具”:你需要给它明确的指令,它才能执行特定的任务。比如让 ChatGPT 写一篇文章,让 Kimi 解一道数学题。但 OpenAI 的 Operator 则不一样,它更像是一个真正意义上的 “助手”,它已经具备了一定的自主性和决策能力,可以理解你的模糊意图,并将任务分解成多个步骤,自主地在浏览器中执行操作,最终完成任务。

这本质上是一种从 “被动处理信息” 到 “主动完成任务” 的进化。这不仅仅是技术上的进步,更是 AI 应用模式的一次重大变革。
Operator 的核心能力:自主操作浏览器
Operator 最核心、最具颠覆性的特点在于它能直接操作浏览器,而无需通过 API 实现。要知道,不是所有的网站和应用都开放 API,即使有,功能也往往受限。
Operator 实现 “操作浏览器” 靠的是一个名为 CUA(Computer-Using Agent)的全新模型。CUA 基于 GPT-4o 专门训练,继承了 4o 的视觉能力,能够和图形用户界面(GUI)直接交互。简单来说,Operator 利用视觉能力通过 “查看” 屏幕截图来 “理解” 当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行 “互动”。
这种方式的好处不言而喻:通用性强,不需要特定 API 的支持,也不需要为每个网站和应用单独适配 API。这意味着,Operator 可以轻松地在各种网站和应用上执行任务,大大拓宽了 AI 的应用场景。
Operator 的实际应用:预定餐厅、在线购物

那么,Operator 究竟能做什么呢?在 OpenAI 的演示中,我们看到了以下几个令人兴奋的应用场景:
-
预定餐厅: 你只需要告诉 Operator “帮我预定这家餐厅今晚 7 点的位置”,它就会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。如果搜索后发现你选定的时间已经不可选了,Operator 还会主动提醒你。
-
在线购物: 你可以告诉 Operator 你想买哪些菜,支持手写。Operator 会自动打开浏览器,进入 Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。在真正下单前,你可以随意修改购物车,直接用自然语言告诉 Operator 就可以。
这些应用场景不仅展示了 Operator 的强大能力,也让我们看到了 AI 在日常生活中的无限可能性。
人机协作:Human in the Loop
Operator 还有一个非常重要的特点,那就是强调人机协作。Operator 不是一个完全自主、不可控的黑盒,它在执行任务时会主动和你确认,尤其是重要操作,比如确认预定、付款。
这其中体现了一个非常重要的设计理念:Human in the loop(HITL)。HITL 通常用于 AI 系统中,指的就是当 AI 在执行任务时,人类必须保持在场,参与、监督,以确保 AI 系统的安全性和可靠性。简单来说,AI 在干活,你在把关。这种设计理念不仅保障了 AI 的可靠性,也增强了用户对 AI 的信任感。
Operator 的局限性:仍在 “研究预览” 阶段
虽然 Operator 的发布令人兴奋,但我们也要认识到,它仍然处于 “研究预览” 阶段,还有很多不完善的地方。
在 OpenAI 的演示中,Operator 也出现了一些 “小翻车” 的情况。比如,已经确定的可选时间,在接收到 “立即执行” 指令后,Operator 却又表示,之前的可选时间其实不存在。再比如尝试访问 StubHub 网站时,Operator 遇到了重定向的问题。
这些问题都提醒我们,Operator 还有很长的路要走。它目前只支持浏览器,高度依赖 GUI 界面,响应速度也比较慢。
如何体验 Operator?
目前,Operator 功能仅对每月 200 美元的 ChatGPT Pro 用户开放体验。其他用户的使用权限将逐步开放。和 Sora 一样,Operator 也是以独立产品的形式推出的,链接是:operator.chatgpt.com。
总结与展望:AI Agent 大战的开启
OpenAI Operator 的发布,无疑拉开了 2025 年 AI Agent 大战的帷幕。它标志着 AI 技术已经从 “工具” 进化到了 “助手”,能够更加自主、更加智能地完成任务。
尽管 Operator 目前还存在一些局限性,但我们有理由相信,随着技术的不断发展,未来的 AI Agent 将会更加强大、更加可靠,真正成为我们生活和工作中不可或缺的 “智能伙伴”。
想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!
相关文章:
OpenAI Operator:AI Agent 大战的号角,从 “工具” 到 “助手” 的飞跃
想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧! 各位 AI 爱好者们,今天我们来聊聊 OpenAI 的最新力作——Operator…...
AI大模型开发原理篇-9:GPT模型的概念和基本结构
基本概念 生成式预训练模型 GPT(Generative Pre-trained Transformer)模型 是由 OpenAI 开发的基于 Transformer 架构的自然语言处理(NLP)模型,专门用于文本生成任务。它的设计理念在于通过大规模的预训练来学习语言模…...
Java Swing 基础组件详解 [论文投稿-第四届智能系统、通信与计算机网络]
大会官网:www.icisccn.net Java Swing 是一个功能强大的 GUI 工具包,提供了丰富的组件库用于构建跨平台的桌面应用程序。本文将详细讲解 Swing 的基础组件,包括其作用、使用方法以及示例代码,帮助你快速掌握 Swing 的核心知识。 一…...
vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列
最近在家过年闲的没事,于是研究起深度学习开发工具链的配置和安装,之前欲与天公试比高,尝试在win上用vscodecuda11.6vs2019的cl编译器搭建cuda c编程环境,最后惨败,沦为笑柄,痛定思痛,这次直接和…...
【letta】The Letta Platform LETTA平台
The Letta Platform LETTA平台 The Letta Platform LETTA平台开源网站2023年的论文 论文:MemGPT Towards LLMs as Operating Systems Letta enables developers to build and deploy stateful AI agents - agents that maintain memory and context across long-running conve…...
想品客老师的第九天:原型和继承
原型与继承前置看这里 原型 原型都了解了,但是不是所有对象都有对象原型 let obj1 {}console.log(obj1)let obj2 Object.create(null, {name: {value: 荷叶饭}})console.log(obj2) obj2为什么没有对象原型?obj2是完全的数据字典对象,没有…...
Time Constant | RC、RL 和 RLC 电路中的时间常数
注:本文为 “Time Constant” 相关文章合辑。 机翻,未校。 How To Find The Time Constant in RC and RL Circuits June 8, 2024 💡 Key learnings: 关键学习点: Time Constant Definition: The time constant (τ) is define…...
原码、反码、补码以及lowbit运算
原码、反码、补码以及lowbit运算 原码: 可以用来计算正数加减,正数的原码、反码、补码都一样。 第一位为符号位,符号位0为正数,1为负数(32位字符,这里用4位来举例子,后面皆是用4位来举例子,其…...
芯片AI深度实战:实战篇之vim chat
利用vim-ollama这个vim插件,可以在vim内和本地大模型聊天。 系列文章: 芯片AI深度实战:基础篇之Ollama-CSDN博客 芯片AI深度实战:基础篇之langchain-CSDN博客 芯片AI深度实战:实战篇之vim chat-CSDN博客 芯片AI深度…...
当当网近30日热销图书的数据采集与可视化分析(scrapy+openpyxl+matplotlib)
当当网近30日热销图书的数据采集与可视化分析(scrapy+openpyxl+matplotlib) 当当网近30日热销书籍官网写在前面 实验目的:实现当当网近30日热销图书的数据采集与可视化分析。 电脑系统:Windows 使用软件:Visual Studio Code Python版本:python 3.12.4 技术需求:scrapy、…...
Spring Boot 日志:项目的“行车记录仪”
一、什么是Spring Boot日志 (一)日志引入 在正式介绍日志之前,我们先来看看上篇文章中(Spring Boot 配置文件)中的验证码功能的一个代码片段: 这是一段校验用户输入的验证码是否正确的后端代码,…...
幸运数字——蓝桥杯
1.问题描述 哈沙德数是指在某个固定的进位制当中,可以被各位数字之和整除的正整数。例如 126126 是十进制下的一个哈沙德数,因为 (126)10mod(126)0;126 也是八进制下的哈沙德数,因为 (126)10(176)8,(126)10mod(176)…...
Deepseek本地部署(ollama+open-webui)
ollama 首先是安装ollama,这个非常简单 https://ollama.com/ 下载安装即可 open-webui 这个是为了提供一个ui,毕竟我们也不想在cmd和模型交互,很不方便。 第一,需要安装python3.11,必须是3.11(其他版…...
【QT】 控件 -- 显示类
🔥 目录 [TOC]( 🔥 目录) 1. 前言 2. 显示类控件2.1 Label 1、显示不同文本2、显示图片3、文本对齐、自动换行、缩进、边距4、设置伙伴 3.2 LCD Number 3.3 ProgressBar 3.4 Calendar Widget 3. 共勉 🔥 1. 前言 之前我在上一篇文章【QT】…...
冲刺蓝桥杯之速通vector!!!!!
文章目录 知识点创建增删查改 习题1习题2习题3习题4:习题5: 知识点 C的STL提供已经封装好的容器vector,也可叫做可变长的数组,vector底层就是自动扩容的顺序表,其中的增删查改已经封装好 创建 const int N30; vecto…...
指针空值——nullptr(C++11)——提升指针安全性的利器
C11引入的nullptr是对指针空值的正式支持,它提供了比传统NULL指针更加安全和明确的指针空值表示方式。在C语言中,指针操作是非常基础且常见的,而如何安全地处理指针空值,一直是开发者关注的重要问题。本文将详细讲解nullptr的引入…...
鸿蒙开发黑科技“stack叠层”替代customdialog
前一篇提到的问题,本篇博文提出了一个解决方案: arkui-x LongPressGesture触发customdialog踩坑记录-CSDN博客 前一段时间遇到的这个问题,通过排除法观察,锁定为customdialog组件有bug,极为容易挂死。不论如何调整使用方法,都还是会触发挂死。 反馈给arkui团队,说是在…...
小米CR6606,CR6608,CR6609 启用SSH和刷入OpenWRT 23.05.5
闲鱼上收了一台CR6606和一台CR6609, 一直没时间研究, 趁春节假期把这两个都刷成 OpenWRT 配置说明 CPU: MT7621AT,双核880MHz内存: NT5CC128M16JR-EKI 或 M15T2G16128A, 256MB闪存: F59L1G81MB, 128MB无线基带芯片(BB): T7905DAN无线射频芯片(RF): MT7975DN无外置F…...
SpringCloud系列教程:微服务的未来(十八)雪崩问题、服务保护方案、Sentinel快速入门
前言 在分布式系统中,雪崩效应(Avalanche Effect)是一种常见的故障现象,通常发生在系统中某个组件出现故障时,导致其他组件级联失败,最终引发整个系统的崩溃。为了有效应对雪崩效应,服务保护方…...
Web-3.0(Solidity)ERC-20
🚀 发行自己的加密货币(ERC-20 代币) 你可以使用 Solidity 编写 ERC-20 智能合约 来发行自己的加密货币,然后部署到 以太坊(Ethereum) 或 BNB/Polygon 等 EVM 兼容链。 📌 1. ERC-20 代币是什么…...
大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)
大数据相关职位介绍之一 随着大数据、人工智能(AI)和机器学习的快速发展,数据分析与管理已经成为各行各业的重要组成部分。从互联网公司到传统行业的数字转型,数据相关职位在中国日益成为推动企业创新和提升竞争力的关键力量。以…...
无人机红外热成像:应急消防的“透视眼”
无人机红外热成像:应急消防的“透视眼” 亲爱的小伙伴们,每年一到夏天,应急消防的战士们就像上紧了发条的闹钟,时刻准备应对各种灾害。炎热天气让火灾隐患“蹭蹭”往上涨,南北各地还有防洪救灾、台风、泥石流等灾害轮…...
opencv裁剪视频区域
import cv2 # 打开视频文件 video_path input.mp4 cap cv2.VideoCapture(video_path) # 获取视频的帧率、宽度和高度 fps int(cap.get(cv2.CAP_PROP_FPS)) width int(cap.get(cv2.CAP_PROP_FRAME_WIDTH)) height int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT)) # 定义裁剪区…...
【狂热算法篇】探秘图论之Dijkstra 算法:穿越图的迷宫的最短路径力量(通俗易懂版)
羑悻的小杀马特.-CSDN博客羑悻的小杀马特.擅长C/C题海汇总,AI学习,c的不归之路,等方面的知识,羑悻的小杀马特.关注算法,c,c语言,青少年编程领域.https://blog.csdn.net/2401_82648291?typebbshttps://blog.csdn.net/2401_82648291?typebbshttps://blog.csdn.net/2401_8264829…...
Kafka的消息协议
引言 在学习MQTT消息协议的时候我常常思考kafka的消息协议是什么,怎么保证消息的可靠性和高性能传输的,接下来我们一同探究一下 Kafka 在不同的使用场景和组件交互中用到了多种协议,以下为你详细介绍: 内部通信协议 Kafka 使用…...
AI在自动化测试中的伦理挑战
在软件测试领域,人工智能(AI)已经不再是遥不可及的未来技术,而是正在深刻影响着测试过程的现实力量。尤其是在自动化测试领域,AI通过加速测试脚本生成、自动化缺陷检测、测试数据生成等功能,极大提升了测试…...
手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)
手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码) 目录 手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)Stable Diffusion 原理图Stable Diffusion的原理解释Stable Diffusion 和Di…...
新版231普通阿里滑块 自动化和逆向实现 分析
声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向过程 补环境逆向 部分补环境 …...
[Effective C++]条款49-52 内存分配
本文初发于 “天目中云的小站”,同步转载于此。 条款49 : 了解new-handler的行为 条款50 : 了解new和delete的合理替换时机 条款51 : 编写new和delete时需固守常规 条款52 :写了placement new也要写placement delete 条款49-52中详细讲述了定制new和d…...
HTML一般标签和自闭合标签介绍
在HTML中,标签用于定义网页内容的结构和样式。标签通常分为两类:一般标签(也称为成对标签或开放闭合标签)和自闭合标签(也称为空标签或自结束标签)。 以下是这两类标签的详细说明: 一、一般标…...
