新火种AI|GPT-5前瞻!GPT-5将具备哪些新能力?
作者:小岩
编辑:彩云
Sam Altman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在,而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。
也正因此, Sam Altman的一条推文,瞬间就可以成为轰动整个AI行业的信号,特别是当这条推文还与万众期待的“GPT-5”有关的时候。

2023年平安夜,Sam Altman在社交平台大胆公布了2024年的雄心壮志。他所发表的关键词不仅涵盖了2024年OpenAI的整体规划,更契合了用户的迫切需求。这其中包括:
AGI(请耐心等待)
GPT-5
更好的语音模式
更高的费率限制
更好的GPT
更好的推理
对工作/行为程度的控制
视频
个性化
更好的浏览
“使用OpenAi登录”
开放源代码
Sam Altman透露,OpenAI计划在接下来的一年内实现多个令人瞩目的里程碑。其中所涉及到的内容,不仅仅一次简单的技术更新,更是一场至关重要的AI变革。当然,最受关注的,还是GPT-5。

AI领域的开源与闭源之争:类似于Android与IOS之争。
对于AI界来说,大家除了关心 GPT-5能否在技术壁垒上有所突破,更关心一个重点:GPT-5能否实现开源?
大模型的开源和闭源之争一直是行业内争论的焦点,这种争论,与移动互联网时代的Android与IOS之争有异曲同工之妙。有意思的是,各个AI大厂对于开源还是闭源的选择也不尽相同。
目前拔得头筹的OpenAI的GPT-4和百度的文心一言都坚持闭源,Meta选择了开源的道路,相继面向“学术研究用途”开源了LLaMA和LLaMA-2模型。百川智能则兼具开源和闭源,在学术领域选择了开源,使用7B和13B两种尺寸的大模型;商业探索上将53B闭源,以保护商业利益和技术的竞争优势。

GPT的闭源,为OpenAI带来了可观的收入。据The Information报道,OpenAI CEO Sam Altman对员工表示,公司正以每年13亿美元(约合人民币94.93亿元)的速度产生收入,平均每月收入超过1亿美元,相较于去年全年2800万美元增长超过450倍,达4542%。这个数据也比3个月前预期的年收入高30 %。这也让2023年成为OpenAI公司成立8年来,收入增长最快的一年。而这些,恰恰是GPT-4闭源所带来的。
关键词:GPT-5能实现开源吗?
那么,GPT-5能实现开源吗?未必。
对于商业模式,OpenAI曾在官网中明确指出“打算继续免费提供ChatGPT”,但也会选择从付费的高级服务的用户和企业中获得收入。而且,虽然OpenAI嘴上说着“不指望在近期内盈利”,但考虑到开发和提供大模型的高成本,生存问题仍然是其不得不面对的挑战。
此外,尽管OpenAI实现了快速增长,但背后的行业成本却不容忽略。根据公开信息显示,2022 年,OpenAI开发GPT-4,仅训练成本支出约5.4亿美元。2023年4月,OpenAI每天为ChatGPT支付的运营成本约694.4万美元(其中主要是电费) ,年化运营成本约为2.5亿美元,综合年化成本可能超过13亿美元。毫无疑问,OpenAI依旧处于亏损阶段。
所以,倘若没有商业化的维持,OpenAI恐怕很快会迎来破产。更重要的是,已经通过GPT-4闭源尝到甜头,获得大量收入的OpenAI,显然没有充足的理由将GPT-5完全开源,这无异于自毁壁垒,在大模型赛道的竞逐中丧失领先优势。从这个层面来说。GPT-5实现开源的概率不大。
即便Sam Altman在推文中将“开源”标注成了关键词,但更多的也只是在迎合行业的呼声,我们还不能将其解读为“企业2024年的发展目标”。
不过,“部分开源”的可能性并非没有。GPT-5完全开源的可能性虽然比较小,但是为了GPT相关生态建设,对与GPT相关的工具集提供开源的可能性却很高。或许,OpenAI会通过为较少部分提供开源的方式,为开发者的开发,调试,分享提供便利。
未来的GPT-5,究竟会具备哪些新能力?
近日,艾伦人工智能研究所发布了Unified-IO 2,它的发布极具意义,因为它可以帮助我们更好的预判GPT-5的能力。
为什么这么说呢?Unified与ChatGPT之间存在着怎样的关系?
事实上,早在2022年6月,艾伦人工智能研究所就推出了第一代Unified-IO,它是首批能够处理图像和语言的多模态模型之一。大约在同一时间,OpenAI正在内部测试GPT-4,并在2023年3月正式发布。所以,Unified-IO可以看作是对于未来大规模AI模型的前瞻。换句话说,因为Unified-IO 2的出现,我们可以大致预判一点:OpenAI可能正在内部测试GPT-5,并很有可能在几个月后发布。

艾伦人工智能研究所推出的Unified-IO 2是第一个可以处理和生成文本,图像,音频,视频和动作序列的模型。这个新的高级人工智能模型使用几十亿个数据点进行训练,虽然模型大小只有7B,却展现出迄今为止最广泛的多模态能力。它的训练数据包括:10亿个图像-文本对,1 万亿个文本标记,1.8亿个视频剪辑,1.3亿张带文本的图像,300万个3D资产和100万个机器人代理运动序列。研究团队将总共120多个数据集组合成一个600 TB的包,涵盖220个视觉,语言,听觉和动作任务。Unified-IO 2采用编码器-解码器架构,并进行了一些更改,以稳定训练并有效利用多模态信号。
模型可以回答问题,根据指令撰写文本、以及分析文本内容;可以识别图像内容,提供图像描述,执行图像处理任务,并根据文本描述创建新图像;可以根据描述或说明生成音乐或声音,以及分析视频并回答有关视频的问题。此外,通过使用机器人数据进行训练,Unified-IO 2还可以为机器人系统生成动作,例如将指令转换为机器人的动作序列。由于多模态训练,它还可以处理不同的模态,例如,在图像上标记某个音轨使用的乐器等。
总体而言,Unified-IO 2在超过35个基准测试中表现良好,包括图像生成和理解,自然语言理解,视频和音频理解以及机器人操作。在大多数任务中,它能够比肩专用模型,甚至更胜一筹。在图像任务的GRIT基准测试中,Unified-IO 2获得了目前的最高分。通过这些,我们也可以更好的窥见未来GPT-5的模样。
对于AI发展而言,科技生态与商业化是缺一不可的核心要素。技术和应用的发展需要商业化提供必要的支持和保障;而商业化的成功也离不开生态环境的建设。两者之间必须相辅相成,有机结合。希望在未来发布的GPT-5中,OpenAI可以起到先导作用,率先实现生态与商业化之间的平衡。
相关文章:
新火种AI|GPT-5前瞻!GPT-5将具备哪些新能力?
作者:小岩 编辑:彩云 Sam Altman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在,而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。 也正因此&…...
安防视频监控系统EasyCVR设备分组中在线/离线数量统计的开发与实现
安防视频监控EasyCVR系统具备较强的兼容性,它可以支持国标GB28181、RTSP/Onvif、RTMP,以及厂家的私有协议与SDK,如:海康ehome、海康sdk、大华sdk、宇视sdk、华为sdk、萤石云sdk、乐橙sdk等。EasyCVR平台可覆盖多类型的设备接入&am…...
spring cloud之集成sentinel
写在前面 源码 。 本文一起看下spring cloud的sentinel组件的使用。 1:准备 1.1:理论 对于一个系统来说,最重要的就是高可用,那么如何实现高可用呢?你可能会说,集群部署不就可以了,但事实并…...
让车辆做到“耳听八方”,毫米波雷达芯片与系统设计
摘要: 毫米波雷达,是指工作在毫米波波段(一般为30~300GHz频域,波长1~10mm)探测的雷达。毫米波雷达体积小、质量轻、空间分辨率高,穿透“雾烟灰”的能力强,还具备全天候全天时工作的优势。在智能网联汽车体系中,毫米波雷达是系统感知层不可或缺的重要硬件,能让智能驾…...
Python如何实现数据驱动的接口自动化测试
大家在接口测试的过程中,很多时候会用到对CSV的读取操作,本文主要说明Python3对CSV的写入和读取。下面话不多说了,来一起看看详细的介绍吧。 1、需求 某API,GET方法,token,mobile,email三个参数 token为必填项mobil…...
高级分布式系统-第15讲 分布式机器学习--联邦学习
高级分布式系统汇总:高级分布式系统目录汇总-CSDN博客 联邦学习 两种常见的架构:客户-服务器架构和对等网络架构 联邦学习在传统的分布式机器学习基础上的变化。 传统的分布式机器学习:在数据中心或计算集群中使用并行训练,因为…...
小程序基础学习(事件处理)
原理:组件内部设置点击事件,然后冒泡到页面捕获点击事件 在组件内部设置点击事件 处理点击事件,并告诉页面 页面捕获点击事件 页面处理点击事件 组件代码 <!--components/my-info/my-info.wxml--> <view class"title"…...
网络协议与攻击模拟_01winshark工具简介
一、TCP/IP协议簇 网络接口层(没有特定的协议) 物理层:PPPOE宽带拨号(应用场景:宽带拨号,运营商切网过来没有固定IP就需要拨号,家庭带宽一般都采用的是拨号方式)数据链路层网络层…...
【linux学习笔记】网络
目录 【linux学习笔记】网络检查、监测网络ping-向网络主机发送特殊数据包traceroute-跟踪网络数据包的传输路径netstat-检查网络设置及相关统计数据 通过网络传输文件ftp 【linux学习笔记】网络 检查、监测网络 ping-向网络主机发送特殊数据包 最基本的网络连接命令就是pin…...
JUC-线程中断机制和LockSupport
线程中断机制 概念 java提供了一种用于停止线程的协商机制-中断。称为中断标识协商机制。 常用API public void interrupt() 仅仅让线程的中断标志位设置为true。不进行其他操作。public boolean isInterrupted() 获取中断标志位的状态。public static boolean interrupted…...
哈希表与哈希算法(Python系列30)
在讲哈希表数据结构和哈希算法之前,我想先刨析一下数组和python中的列表 首先来讲一下数组,我想在这提出一个疑问: 为什么数组通过索引查询数据的时间复杂度为O(1),也就是不管数组有多大,算法的执行时间都是不变的。…...
『 C++ 』AVL树详解 ( 万字 )
🦈STL容器类型 在STL的容器中,分为几种容器: 序列式容器(Sequence Containers): 这些容器以线性顺序存储元素,保留了元素的插入顺序。 支持随机访问,因此可以使用索引或迭代器快速访问任何位置的元素。 主要的序列式…...
Python下载安装pip方法与步骤_pip国内镜像
前提:下载安装好 python 打开命令提示符winR->cmd(不需要进入 python,直接在终端输入指令执行即可,也可以再 pycharm 终端执行命令)加入要安装ipython,需要执行以下命令: pip install **<…...
自动化测试框架pytest系列之基础概念介绍(一)
如果你要打算学习自动化测试 ,无论是web自动化、app自动化还是接口自动化 ,在学习的道路上,你几乎会遇到pytest这个测试框架,因为自动化编写没有测试框架,根本玩不了 。 如果你已经是一位自动化测试人员 ,…...
编码技巧:如何在Golang中高效解析和生成XML
编码技巧:如何在Golang中高效解析和生成XML 引言Golang中的XML基础解析XML文件生成XML文件错误处理和调试高级技巧和最佳实践总结 引言 在当今数据驱动的编程世界中,有效地处理各种数据格式是每个开发人员必备的技能之一。其中,XMLÿ…...
24校招,帆书测试开发工程师一面
前言 樊高读书是帆书的前身,我之前还看过他们的书,缘分闭环了 时间:25min 平台:飞书视频面试 过程 自我介绍为啥从后端转测试?通过实习经历,对测试有什么了解?讲一下游戏测试经历负责什么业…...
Java 方法以及在计算机内部的调用问题
修饰符 返回值类型 方法名( 形参列表 ){ 方法体代码(需要执行的功能代码) return 返回值; } 方法在内种没有先后顺序,但是不能把一个方法定义在另一个方法中。 方法的返回值类型写void(无返回申明)时,方法内不能使用return返回数…...
【算法与数据结构】343、LeetCode整数拆分
文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:博主做这道题的时候一直在思考,如何找到 k k k个正整数, k k k究竟为多少合适。…...
中级Python面试问题
文章目录 专栏导读1、xrange 和 range 函数有什么区别?2、什么是字典理解?举个例子3、元组理解吗?如果是,怎么做,如果不是,为什么?4、 列表和元组的区别?5、浅拷贝和深拷贝有什么区别…...
Lede(OpenWrt)安装和双宽带叠加
文章目录 一、Lede介绍1. 简介2. 相关网站 二、Lede安装1. 编译环境2. SHELL编译步骤3. 腾讯云自动化助手 三、Lede配置1. 电信接口配置2. 联通接口配置3. 多线多播配置4. 网速测试效果 一、Lede介绍 1. 简介 LEDE是一个专为路由器和嵌入式设备设计的自由和开源的操作系统。 …...
国防科技大学计算机基础课程笔记02信息编码
1.机内码和国标码 国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制,因此这个了16进制的数据既可以翻译成为这个机器码,也可以翻译成为这个国标码,所以这个时候很容易会出现这个歧义的情况; 因此,我们的这个国…...
23-Oracle 23 ai 区块链表(Blockchain Table)
小伙伴有没有在金融强合规的领域中遇见,必须要保持数据不可变,管理员都无法修改和留痕的要求。比如医疗的电子病历中,影像检查检验结果不可篡改行的,药品追溯过程中数据只可插入无法删除的特性需求;登录日志、修改日志…...
【解密LSTM、GRU如何解决传统RNN梯度消失问题】
解密LSTM与GRU:如何让RNN变得更聪明? 在深度学习的世界里,循环神经网络(RNN)以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而,传统RNN存在的一个严重问题——梯度消失&#…...
【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表
1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...
【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)
骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术,它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton):由层级结构的骨头组成,类似于人体骨骼蒙皮 (Mesh Skinning):将模型网格顶点绑定到骨骼上,使骨骼移动…...
k8s业务程序联调工具-KtConnect
概述 原理 工具作用是建立了一个从本地到集群的单向VPN,根据VPN原理,打通两个内网必然需要借助一个公共中继节点,ktconnect工具巧妙的利用k8s原生的portforward能力,简化了建立连接的过程,apiserver间接起到了中继节…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
MySQL JOIN 表过多的优化思路
当 MySQL 查询涉及大量表 JOIN 时,性能会显著下降。以下是优化思路和简易实现方法: 一、核心优化思路 减少 JOIN 数量 数据冗余:添加必要的冗余字段(如订单表直接存储用户名)合并表:将频繁关联的小表合并成…...
作为测试我们应该关注redis哪些方面
1、功能测试 数据结构操作:验证字符串、列表、哈希、集合和有序的基本操作是否正确 持久化:测试aof和aof持久化机制,确保数据在开启后正确恢复。 事务:检查事务的原子性和回滚机制。 发布订阅:确保消息正确传递。 2、性…...
