OpenAI GPT-4o - 介绍
本文翻译整理自: Hello GPT-4o
https://openai.com/index/hello-gpt-4o/
文章目录
- 一、关于 GPT-4o
- 二、模型能力
- 三、能力探索
- 四、模型评估
- 1、文本评价
- 2、音频 ASR 性能
- 3、音频翻译性能
- 4、M3Exam 零样本结果
- 5、视觉理解评估
- 6、语言 tokenization
- 六、模型安全性和局限性
- 七、模型可用性
一、关于 GPT-4o
我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时对音频、视觉和文本进行推理。
- 贡献 : https://openai.com/gpt-4o-contributions/
- 尝试 ChatGPT(在新窗口中打开) : https://chat.openai.com/
- 在游乐场尝试(在新窗口中打开) : https://platform.openai.com/playground?mode=chat&model=gpt-4o
- 重新观看现场演示 : https://openai.com/index/spring-update/
GPT-4o(“o”代表 omni
)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似(在新窗口中打开)在一次谈话中。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
二、模型能力
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。
三、能力探索
视觉叙事 - 机器人作家的街区视觉叙事——邮递员莎莉电影《名侦探》海报创作角色设计——机器人吉尔里迭代编辑的诗意排版 1迭代编辑的诗意排版 2GPT-4o纪念币设计照片到漫画文字转字体3D物体合成品牌定位 - 杯垫上的徽标诗意的排版多线渲染 - 机器人发短信与多个发言者的会议记录讲座总结变量绑定-立方体堆叠具体的诗
1
输入
机器人正在打字的第一人称视角如下日记条目:
1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?
文字大、清晰易读。机器人的手在打字机上打字。
2
输出
3
输入
机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目:
哟,就像,我现在可以看到了?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?
声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?
4
输出
5
输入
机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半仍然清晰可见。
6
输出
四、模型评估
根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
1、文本评价
改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。
(注:Llama3 400b(在新窗口中打开)还在训练中)
2、音频 ASR 性能
音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
3、音频翻译性能
音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
4、M3Exam 零样本结果
M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。 (我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。
5、视觉理解评估
视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。
6、语言 tokenization
这 20 种语言被选为新分词器跨不同语系压缩的代表
古吉拉特语标记减少 4.4 倍(从 145 个减少到 33 个) | હેલો,મારુંનામજીપીટી-4oછે。 હુંએકનવાપ્રકારનુંભાષામોડલછું。 તમનેમળીનેસારુંલાગ્યું! |
泰卢固语令牌减少 3.5 倍(从 159 个减少到 45 个) | నమస్కారము,నాపేరుజీపీటీ-4o。 నేనుఒక్కకొత్తరకమైనభాషామోడల్ని。 మిమ్మల్నికలిసినందుకుసంతోషం! |
泰米尔语标记减少 3.3 倍(从 116 个减少到 35 个) | வணக்கம்,என்பெயர்ஜிபிடி-4o。 நான்ஒருபுதியவகைமொழிமாடல்。你好! |
马拉地语标记减少 2.9 倍(从 96 个减少到 33 个) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हालाभेटूनआनंदझाला! |
印地语标记减少 2.9 倍(从 90 个减少到 31 个) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसेमिलकरअच्छालगा! |
乌尔都语标记减少 2.5 倍(从 82 个减少到 33 个) | ঌারেরেরেরেরেরা ٹ-4o 903亲爱的,我爱你! |
阿拉伯语标记减少 2.0 倍(从 53 个减少到 26 个) | 4o。快来吧! |
波斯语标记减少 1.9 倍(从 61 个减少到 32 个) | 是的。不,不,不,不,不,不,不,不,不,不,不! |
俄语标记减少 1.7 倍(从 39 个减少到 23 个) | 请参阅 GPT-4o。 Я — новая языковая модель, приятно познакомиться! |
韩语标记减少 1.7 倍(从 45 个减少到 27 个) | 안녕하세요,适用于 GPT-4o입니다。 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
越南语标记减少 1.5 倍(从 46 个减少到 30 个) | 新潮,是 GPT-4o。 Tôi là một loại mô hình ngôn ngữ mới,rất vui được gặp bạn! |
中文标记减少 1.4 倍(从 34 个减少到 24 个) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
日语标记减少 1.4 倍(从 37 个减少到 26 个) | こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言语モデルです、初めまして |
土耳其语标记减少 1.3 倍(从 39 个减少到 30 个) | Merhaba,本尼姆 adım GPT-4o。 Ben Yeni bir dil modeli türüyüm,tanıştığımıza memnun oldum! |
意大利语标记减少 1.2 倍(从 34 个减少到 28 个) | 你好,我的 Chiamo GPT-4o。 Sono un nuovo tipo di modello languageso, è un piacere conoscerti! |
德语标记减少 1.2 倍(从 34 个减少到 29 个) | 你好,我的名字是 GPT-4o。 Ich bin ein neues KI-Sprachmodell。这是 schön,dich kennenzulernen。 |
西班牙语标记减少 1.1 倍(从 29 个减少到 26 个) | 你好,我是 llamo GPT-4o。 Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
葡萄牙语标记减少 1.1 倍(从 30 个减少到 27 个) | 哦,我的名字是 GPT-4o。 Sou um novo tipo de linguagem, é um prazer conhecê-lo! |
法语标记减少 1.1 倍(从 31 个减少到 28 个) | 你好,我是 GPT-4o。 Je suis un nouveau type de modèle de langage, c’est un plaisir de vous recontrer! |
英语标记减少 1.1 倍(从 27 个减少到 24 个) | 你好,我的名字是 GPT-4o。我是新型语言模型,很高兴认识你! |
六、模型安全性和局限性
GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。
我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。
我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。
该评估涉及在整个模型训练过程中运行一套自动化和人工评估。
我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名
外部专家进行了广泛的外部红队合作,以识别新添加的模式引入或放大的风险。
我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。
我们认识到 GPT-4o 的音频模式带来了各种新的风险。
今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。
例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。
我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。
通过模型的测试和迭代,我们观察到模型的所有模式都存在一些限制,其中一些如下所示。
我们希望得到反馈来帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务,以便我们可以继续改进模型。
七、模型可用性
GPT-4o 是我们突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,我们花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。未来几周内,我们将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。我们计划在未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
2024-05-14(二)
相关文章:

OpenAI GPT-4o - 介绍
本文翻译整理自: Hello GPT-4o https://openai.com/index/hello-gpt-4o/ 文章目录 一、关于 GPT-4o二、模型能力三、能力探索四、模型评估1、文本评价2、音频 ASR 性能3、音频翻译性能4、M3Exam 零样本结果5、视觉理解评估6、语言 tokenization 六、模型安全性和局限…...

QTreeView学习 branch 虚线设置
1、方法一: #include <QStyleFactory> ui.treeView->setStyle(QStyleFactory::create("windows")); 2、方法二: QString strtyle2 R"( QTreeView::branch:has-siblings:!adjoins-item { border-image: url(:/TreeViewDe…...

C++ 日志库 log4cpp 编译、压测及其范例代码 [全流程手工实践]
文章目录 一、 log4cpp官网二、下载三、编译1.目录结构如下2.configure 编译3.cmake 编译 四、测试五、压测源码及结果1.运行环境信息2.压测源码3.压测结果 文章内容:包含了对其linux上的完整使用流程,下载、编译、安装、测试用例尝试、以及一份自己写好…...

python数据处理与分析入门-pandas使用(4)
往期文章: pandas使用1pandas使用2pandas使用3 pandas使用技巧 创建一个DF对象 # 首先创建一个时间序列 dates pd.date_range(20180101, periods6) print(dates)# 创建DataFrame对象,指定index和columns标签 df pd.DataFrame(np.random.randn(6,4), …...

操作系统-单片机进程状态问题(三态模型问题)
例题:在单处理机计算机系统中有1台打印机、1台扫描仪,系统采用先来先服务调度算法。假设系统中有进程P1、P2、P3、P4,其中P1为运行状态,P2为就绪状态,P3等待打印机,P4等待扫描仪。此时,若P1释放…...

Linux文件:重定向底层实现原理(输入重定向、输出重定向、追加重定向)
Linux文件:重定向底层实现原理(输入重定向、输出重定向、追加重定向) 前言一、文件描述符fd的分配规则二、输出重定向(>)三、输出重定向底层实现原理四、追加重定向(>>)五、输入重定向…...

波搜索算法(WSA)-2024年SCI新算法-公式原理详解与性能测评 Matlab代码免费获取
声明:文章是从本人公众号中复制而来,因此,想最新最快了解各类智能优化算法及其改进的朋友,可关注我的公众号:强盛机器学习,不定期会有很多免费代码分享~ 目录 原理简介 一、初始化阶段 二、全…...

洛谷P1364 医院设置
P1364 医院设置 题目描述 设有一棵二叉树,如图: 其中,圈中的数字表示结点中居民的人口。圈边上数字表示结点编号,现在要求在某个结点上建立一个医院,使所有居民所走的路程之和为最小,同时约定,…...

哈希表的理解和实现
目录 1. 哈希的概念 (是什么) 2. 实现哈希的两种方式 (哈希函数) 2.1. 直接定址法 2.2. 除留余数法 2.2.1. 哈希冲突 3. 补充知识 3.1. 负载因子 3.2. 线性探测和二次探测 4. 闭散列实现哈希表 (开放定址法) 4.1. 开放定址法的实现框架 4.2. Xq::hash_table::insert…...

分治算法(Divide-and-Conquer Algorithm)
分治算法(Divide-and-Conquer Algorithm)是一种重要的计算机科学和数学领域的通用问题解决策略。其基本思想是将一个复杂的大规模问题分割成若干个规模较小、结构与原问题相似但相对简单的子问题来处理。这些子问题相互独立,分别求解后再通过…...

Java项目:基于ssm框架实现的实验室耗材管理系统(B/S架构+源码+数据库+毕业论文+答辩PPT)
一、项目简介 本项目是一套基于ssm框架实现的实验室耗材管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 二、技术实现 jdk版本:1.8 …...

如何通过专业的二手机店erp优化手机商家运营!
在数字化浪潮席卷全球的大背景下,手机行业作为科技发展的前沿阵地,正经历着前所未有的变革。对于众多手机商家而言,如何在这场变革中抢占先机,实现数字化转型,成为了摆在他们面前的一大难题。幸运的是,途渡…...

CentOS常见的命令及其高质量应用
CentOS是一个流行的、基于Red Hat Enterprise Linux(RHEL)的开源服务器操作系统。由于其稳定性和强大的性能,CentOS被广泛应用于各种服务器环境中。为了有效地管理和维护CentOS系统,熟悉并掌握其常见命令是非常重要的。本文将介绍…...

nodeJs用ffmpeg直播推流到rtmp服务器上
总结 最近在写直播项目 目前比较重要的点就是推拉流 自己也去了解了一下 ffmpeg FFmpeg 是一个开源项目,它提供了一个跨平台的命令行工具,以及一系列用于处理音频和视频数据的库。FFmpeg 能够执行多种任务,包括解封装、转封装、视频和音频…...

Django信号与扩展:深入理解与实践
title: Django信号与扩展:深入理解与实践 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 后端开发 tags: Django信号松耦合观察者扩展安全性能 第一部分:Django信号基础 Django信号概述 一. Django信号的定义与作用 Django信…...

使用Docker创建verdaccio私服
verdaccio官网 1.Docker安装 这边以Ubuntu安装为例Ubuntu 安装Docker,具体安装方式请根据自己电脑自行搜索。 2.下载verdaccio docker pull verdaccio/verdaccio3.运行verdaccio 运行容器: docker run -it -d --name verdaccio -p 4873:4873 ver…...

Spring 使用 Groovy 实现动态server
本人在项目中遇到这么个需求,有一个模块的server方法需要频繁修改 经阅读可以使用 Groovy 使用java脚本来时pom坐标 <dependency><groupId>org.codehaus.groovy</groupId><artifactId>groovy</artifactId><version>3.0.9</version>…...

oracle不得不知道的sql
一、oracle 查询语句 1.translate select translate(abc你好cdefgdc,abcdefg,1234567)from dual; select translate(abc你好cdefgdc,abcdefg,)from dual;--如果替换字符整个为空字符 ,则直接返回null select translate(abc你好cdefgdc,abcdefg,122)from dual; sel…...

算法-卡尔曼滤波之卡尔曼滤波的第二个方程:预测方程(状态外推方程)
在上一节中,使用了静态模型,我们推导出了卡尔曼滤波的状态更新方程,但是在实际情况下,系统都是动态,预测阶段,前后时刻的状态是改变的,此时我们引入预测方程,也叫状态外推方程&#…...

刘邦的创业团队是沛县人,朱元璋的则是凤阳;要创业,一个县人才就够了
当人们回顾刘邦和朱元璋的创业经历时,总是会感慨他们起于微末,都创下了偌大王朝,成就无上荣誉。 尤其是我们查阅史书时,发现这二人的崛起班底都是各自的家乡人,例如刘邦的班底就是沛县人,朱元璋的班底是凤…...

【Unity之FairyGUI】你了解FGUI吗,跨平台多功能高效UI插件
👨💻个人主页:元宇宙-秩沅 👨💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨💻 本文由 秩沅 原创 👨💻 收录于专栏:就业…...

基于51单片机的自动浇花器电路
一、系统概述 自动浇水灌溉系统设计方案,以AT89C51单片机为控制核心,采用模块化的设计方法。 组成部分为:5V供电模块、土壤湿度传感器模块、ADC0832模数转换模块、水泵控制模块、按键输入模块、LCD显示模块和声光报警模块,结构如…...

2024中国(重庆)商旅文化川渝美食暨消费品博览会8月举办
2024中国(重庆)商旅文化川渝美食暨消费品博览会8月举办 邀请函 主办单位: 中国航空学会 重庆市南岸区人民政府 招商执行单位: 重庆港华展览有限公司 展会背景: 2024中国航空科普大会暨第八届全国青少年无人机大赛在重庆举办ÿ…...

MacOS docker 安装与配置
orbstack 安装 官网: https://orbstack.dev 下载链接:Download OrbStack Fast, light, simple Docker Desktop alternative 选择是Apple M系列处理器, 或 Intel系列处理器 到这里就安装好了Orbstack软件,下面开始配置docker 下…...

【嵌入式大赛应用赛道】机械手臂
电机 进步电机:它的转动是以确定的步数进行的,只要计算好脉冲数量和频率,就可以准确预测和控制电机的转动角度、速度以及停止的位置 伺服电机:将输入的电信号(如电压或电流指令)转换成轴上的精确旋转运动…...

MES系统主要包括那些功能?
一开始接触MES系统,对MES细条的功能不清楚,这样很正常,因为MES系统相对于其他系统来讲,功能有多又复杂! 作为曾参与200企业MES系统架构的资深从业人员,我给大家选出了一款优秀模板——简道云MES系统,给大家…...

git 合并commit
操作步骤 合并commit cd xxx/ git checkout a8c0efegfwgtw # 最新commit git reset rhgertheryhg --soft # 最初的commit git status git checkout -b test1 git commit -m "test1" git branch git push origin test1 git tag test1_v0.0.1 git push origin test1_…...

【ARMv8/v9 系统寄存器 5 -- CPU ID 判断寄存器 MPIDR_EL1 使用详细介绍】
文章目录 寄存器名称: MPIDR_EL1寄存器结构:主要功能和用途亲和级别(Affinity Levels)简介CORE ID 获取函数 在ARMv8-A架构中, MPIDR_EL1寄存器是一个非常重要的系统寄存器,它提供了关于处理器在其物理和逻辑配置中的位置的信息。…...

软件工程课程设计之酒店管理系统的设计与实现
这是一个简化的酒店管理系统的需求分析文档、系统设计文档、测试文档的结构概述,以及部分实现阶段的代码示例。详细设计阶段的数据字典、ER图、模块分类图将以文字描述形式给出,而完整的代码未完全实现。这里只做软件工程部分的设计需求说明哈࿵…...

函数递归练习
目录 1.分析下面选择题 2.实现求第n个斐波那契数 3.编写一个函数实现n的k次方,使用递归实现。 4.写一个递归函数DigitSum(n),输入一个非负整数,返回组成它的数字之和 5.递归方式实现打印一个整数的每一位 6.实现求n的阶乘 1.分析下面选择…...