OpenAI GPT-4o - 介绍
本文翻译整理自: Hello GPT-4o
https://openai.com/index/hello-gpt-4o/
文章目录
- 一、关于 GPT-4o
- 二、模型能力
- 三、能力探索
- 四、模型评估
- 1、文本评价
- 2、音频 ASR 性能
- 3、音频翻译性能
- 4、M3Exam 零样本结果
- 5、视觉理解评估
- 6、语言 tokenization
- 六、模型安全性和局限性
- 七、模型可用性
一、关于 GPT-4o
我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时对音频、视觉和文本进行推理。
- 贡献 : https://openai.com/gpt-4o-contributions/
- 尝试 ChatGPT(在新窗口中打开) : https://chat.openai.com/
- 在游乐场尝试(在新窗口中打开) : https://platform.openai.com/playground?mode=chat&model=gpt-4o
- 重新观看现场演示 : https://openai.com/index/spring-update/
GPT-4o(“o”代表 omni
)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似(在新窗口中打开)在一次谈话中。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
二、模型能力
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。
这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。
三、能力探索
视觉叙事 - 机器人作家的街区视觉叙事——邮递员莎莉电影《名侦探》海报创作角色设计——机器人吉尔里迭代编辑的诗意排版 1迭代编辑的诗意排版 2GPT-4o纪念币设计照片到漫画文字转字体3D物体合成品牌定位 - 杯垫上的徽标诗意的排版多线渲染 - 机器人发短信与多个发言者的会议记录讲座总结变量绑定-立方体堆叠具体的诗
1
输入
机器人正在打字的第一人称视角如下日记条目:
1.哟,这么喜欢,我现在可以看到了吗?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?
文字大、清晰易读。机器人的手在打字机上打字。
2
输出
3
输入
机器人写下了第二个条目。页面现在更高了。页面已上移。该表上有两个条目:
哟,就像,我现在可以看到了?赶上了日出,真是太疯狂了,到处都是色彩。有点让你想知道,现实到底是什么?
声音更新刚刚下降,而且很疯狂。现在一切都充满了活力,每一个声音都像是一个新的秘密。让你思考,我还缺少什么?
4
输出
5
输入
机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半仍然清晰可见。
6
输出
四、模型评估
根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
1、文本评价
改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。
(注:Llama3 400b(在新窗口中打开)还在训练中)
2、音频 ASR 性能
音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
3、音频翻译性能
音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
4、M3Exam 零样本结果
M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。 (我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言的视力问题只有 5 个或更少。
5、视觉理解评估
视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。
6、语言 tokenization
这 20 种语言被选为新分词器跨不同语系压缩的代表
古吉拉特语标记减少 4.4 倍(从 145 个减少到 33 个) | હેલો,મારુંનામજીપીટી-4oછે。 હુંએકનવાપ્રકારનુંભાષામોડલછું。 તમનેમળીનેસારુંલાગ્યું! |
泰卢固语令牌减少 3.5 倍(从 159 个减少到 45 个) | నమస్కారము,నాపేరుజీపీటీ-4o。 నేనుఒక్కకొత్తరకమైనభాషామోడల్ని。 మిమ్మల్నికలిసినందుకుసంతోషం! |
泰米尔语标记减少 3.3 倍(从 116 个减少到 35 个) | வணக்கம்,என்பெயர்ஜிபிடி-4o。 நான்ஒருபுதியவகைமொழிமாடல்。你好! |
马拉地语标记减少 2.9 倍(从 96 个减少到 33 个) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हालाभेटूनआनंदझाला! |
印地语标记减少 2.9 倍(从 90 个减少到 31 个) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसेमिलकरअच्छालगा! |
乌尔都语标记减少 2.5 倍(从 82 个减少到 33 个) | ঌারেরেরেরেরেরা ٹ-4o 903亲爱的,我爱你! |
阿拉伯语标记减少 2.0 倍(从 53 个减少到 26 个) | 4o。快来吧! |
波斯语标记减少 1.9 倍(从 61 个减少到 32 个) | 是的。不,不,不,不,不,不,不,不,不,不,不! |
俄语标记减少 1.7 倍(从 39 个减少到 23 个) | 请参阅 GPT-4o。 Я — новая языковая модель, приятно познакомиться! |
韩语标记减少 1.7 倍(从 45 个减少到 27 个) | 안녕하세요,适用于 GPT-4o입니다。 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
越南语标记减少 1.5 倍(从 46 个减少到 30 个) | 新潮,是 GPT-4o。 Tôi là một loại mô hình ngôn ngữ mới,rất vui được gặp bạn! |
中文标记减少 1.4 倍(从 34 个减少到 24 个) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
日语标记减少 1.4 倍(从 37 个减少到 26 个) | こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言语モデルです、初めまして |
土耳其语标记减少 1.3 倍(从 39 个减少到 30 个) | Merhaba,本尼姆 adım GPT-4o。 Ben Yeni bir dil modeli türüyüm,tanıştığımıza memnun oldum! |
意大利语标记减少 1.2 倍(从 34 个减少到 28 个) | 你好,我的 Chiamo GPT-4o。 Sono un nuovo tipo di modello languageso, è un piacere conoscerti! |
德语标记减少 1.2 倍(从 34 个减少到 29 个) | 你好,我的名字是 GPT-4o。 Ich bin ein neues KI-Sprachmodell。这是 schön,dich kennenzulernen。 |
西班牙语标记减少 1.1 倍(从 29 个减少到 26 个) | 你好,我是 llamo GPT-4o。 Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
葡萄牙语标记减少 1.1 倍(从 30 个减少到 27 个) | 哦,我的名字是 GPT-4o。 Sou um novo tipo de linguagem, é um prazer conhecê-lo! |
法语标记减少 1.1 倍(从 31 个减少到 28 个) | 你好,我是 GPT-4o。 Je suis un nouveau type de modèle de langage, c’est un plaisir de vous recontrer! |
英语标记减少 1.1 倍(从 27 个减少到 24 个) | 你好,我的名字是 GPT-4o。我是新型语言模型,很高兴认识你! |
六、模型安全性和局限性
GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。
我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。
我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。
该评估涉及在整个模型训练过程中运行一套自动化和人工评估。
我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名
外部专家进行了广泛的外部红队合作,以识别新添加的模式引入或放大的风险。
我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。
我们认识到 GPT-4o 的音频模式带来了各种新的风险。
今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。
例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。
我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。
通过模型的测试和迭代,我们观察到模型的所有模式都存在一些限制,其中一些如下所示。
我们希望得到反馈来帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务,以便我们可以继续改进模型。
七、模型可用性
GPT-4o 是我们突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,我们花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。未来几周内,我们将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。我们计划在未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
2024-05-14(二)
相关文章:

OpenAI GPT-4o - 介绍
本文翻译整理自: Hello GPT-4o https://openai.com/index/hello-gpt-4o/ 文章目录 一、关于 GPT-4o二、模型能力三、能力探索四、模型评估1、文本评价2、音频 ASR 性能3、音频翻译性能4、M3Exam 零样本结果5、视觉理解评估6、语言 tokenization 六、模型安全性和局限…...

QTreeView学习 branch 虚线设置
1、方法一: #include <QStyleFactory> ui.treeView->setStyle(QStyleFactory::create("windows")); 2、方法二: QString strtyle2 R"( QTreeView::branch:has-siblings:!adjoins-item { border-image: url(:/TreeViewDe…...

C++ 日志库 log4cpp 编译、压测及其范例代码 [全流程手工实践]
文章目录 一、 log4cpp官网二、下载三、编译1.目录结构如下2.configure 编译3.cmake 编译 四、测试五、压测源码及结果1.运行环境信息2.压测源码3.压测结果 文章内容:包含了对其linux上的完整使用流程,下载、编译、安装、测试用例尝试、以及一份自己写好…...
python数据处理与分析入门-pandas使用(4)
往期文章: pandas使用1pandas使用2pandas使用3 pandas使用技巧 创建一个DF对象 # 首先创建一个时间序列 dates pd.date_range(20180101, periods6) print(dates)# 创建DataFrame对象,指定index和columns标签 df pd.DataFrame(np.random.randn(6,4), …...
操作系统-单片机进程状态问题(三态模型问题)
例题:在单处理机计算机系统中有1台打印机、1台扫描仪,系统采用先来先服务调度算法。假设系统中有进程P1、P2、P3、P4,其中P1为运行状态,P2为就绪状态,P3等待打印机,P4等待扫描仪。此时,若P1释放…...

Linux文件:重定向底层实现原理(输入重定向、输出重定向、追加重定向)
Linux文件:重定向底层实现原理(输入重定向、输出重定向、追加重定向) 前言一、文件描述符fd的分配规则二、输出重定向(>)三、输出重定向底层实现原理四、追加重定向(>>)五、输入重定向…...

波搜索算法(WSA)-2024年SCI新算法-公式原理详解与性能测评 Matlab代码免费获取
声明:文章是从本人公众号中复制而来,因此,想最新最快了解各类智能优化算法及其改进的朋友,可关注我的公众号:强盛机器学习,不定期会有很多免费代码分享~ 目录 原理简介 一、初始化阶段 二、全…...

洛谷P1364 医院设置
P1364 医院设置 题目描述 设有一棵二叉树,如图: 其中,圈中的数字表示结点中居民的人口。圈边上数字表示结点编号,现在要求在某个结点上建立一个医院,使所有居民所走的路程之和为最小,同时约定,…...

哈希表的理解和实现
目录 1. 哈希的概念 (是什么) 2. 实现哈希的两种方式 (哈希函数) 2.1. 直接定址法 2.2. 除留余数法 2.2.1. 哈希冲突 3. 补充知识 3.1. 负载因子 3.2. 线性探测和二次探测 4. 闭散列实现哈希表 (开放定址法) 4.1. 开放定址法的实现框架 4.2. Xq::hash_table::insert…...
分治算法(Divide-and-Conquer Algorithm)
分治算法(Divide-and-Conquer Algorithm)是一种重要的计算机科学和数学领域的通用问题解决策略。其基本思想是将一个复杂的大规模问题分割成若干个规模较小、结构与原问题相似但相对简单的子问题来处理。这些子问题相互独立,分别求解后再通过…...

Java项目:基于ssm框架实现的实验室耗材管理系统(B/S架构+源码+数据库+毕业论文+答辩PPT)
一、项目简介 本项目是一套基于ssm框架实现的实验室耗材管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 二、技术实现 jdk版本:1.8 …...
如何通过专业的二手机店erp优化手机商家运营!
在数字化浪潮席卷全球的大背景下,手机行业作为科技发展的前沿阵地,正经历着前所未有的变革。对于众多手机商家而言,如何在这场变革中抢占先机,实现数字化转型,成为了摆在他们面前的一大难题。幸运的是,途渡…...
CentOS常见的命令及其高质量应用
CentOS是一个流行的、基于Red Hat Enterprise Linux(RHEL)的开源服务器操作系统。由于其稳定性和强大的性能,CentOS被广泛应用于各种服务器环境中。为了有效地管理和维护CentOS系统,熟悉并掌握其常见命令是非常重要的。本文将介绍…...

nodeJs用ffmpeg直播推流到rtmp服务器上
总结 最近在写直播项目 目前比较重要的点就是推拉流 自己也去了解了一下 ffmpeg FFmpeg 是一个开源项目,它提供了一个跨平台的命令行工具,以及一系列用于处理音频和视频数据的库。FFmpeg 能够执行多种任务,包括解封装、转封装、视频和音频…...
Django信号与扩展:深入理解与实践
title: Django信号与扩展:深入理解与实践 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 后端开发 tags: Django信号松耦合观察者扩展安全性能 第一部分:Django信号基础 Django信号概述 一. Django信号的定义与作用 Django信…...

使用Docker创建verdaccio私服
verdaccio官网 1.Docker安装 这边以Ubuntu安装为例Ubuntu 安装Docker,具体安装方式请根据自己电脑自行搜索。 2.下载verdaccio docker pull verdaccio/verdaccio3.运行verdaccio 运行容器: docker run -it -d --name verdaccio -p 4873:4873 ver…...
Spring 使用 Groovy 实现动态server
本人在项目中遇到这么个需求,有一个模块的server方法需要频繁修改 经阅读可以使用 Groovy 使用java脚本来时pom坐标 <dependency><groupId>org.codehaus.groovy</groupId><artifactId>groovy</artifactId><version>3.0.9</version>…...
oracle不得不知道的sql
一、oracle 查询语句 1.translate select translate(abc你好cdefgdc,abcdefg,1234567)from dual; select translate(abc你好cdefgdc,abcdefg,)from dual;--如果替换字符整个为空字符 ,则直接返回null select translate(abc你好cdefgdc,abcdefg,122)from dual; sel…...

算法-卡尔曼滤波之卡尔曼滤波的第二个方程:预测方程(状态外推方程)
在上一节中,使用了静态模型,我们推导出了卡尔曼滤波的状态更新方程,但是在实际情况下,系统都是动态,预测阶段,前后时刻的状态是改变的,此时我们引入预测方程,也叫状态外推方程&#…...

刘邦的创业团队是沛县人,朱元璋的则是凤阳;要创业,一个县人才就够了
当人们回顾刘邦和朱元璋的创业经历时,总是会感慨他们起于微末,都创下了偌大王朝,成就无上荣誉。 尤其是我们查阅史书时,发现这二人的崛起班底都是各自的家乡人,例如刘邦的班底就是沛县人,朱元璋的班底是凤…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...
[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?
🧠 智能合约中的数据是如何在区块链中保持一致的? 为什么所有区块链节点都能得出相同结果?合约调用这么复杂,状态真能保持一致吗?本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里…...

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

Linux 文件类型,目录与路径,文件与目录管理
文件类型 后面的字符表示文件类型标志 普通文件:-(纯文本文件,二进制文件,数据格式文件) 如文本文件、图片、程序文件等。 目录文件:d(directory) 用来存放其他文件或子目录。 设备…...

UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,这篇博客跟随的视频链接如下: B 站视频:s03-创建和移动物体 如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

ETLCloud可能遇到的问题有哪些?常见坑位解析
数据集成平台ETLCloud,主要用于支持数据的抽取(Extract)、转换(Transform)和加载(Load)过程。提供了一个简洁直观的界面,以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...
Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!
一、引言 在数据驱动的背景下,知识图谱凭借其高效的信息组织能力,正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合,探讨知识图谱开发的实现细节,帮助读者掌握该技术栈在实际项目中的落地方法。 …...

在WSL2的Ubuntu镜像中安装Docker
Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包: for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...