当前位置: 首页 > article >正文

OpenAI发布三款音频模型,欲借差异化路线“通吃”语音AI市场!

OpenAI发布三款音频模型昨天凌晨OpenAI发布了三款音频模型GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。OpenAI官网称新模型能让开发者构建可在用户说话时“推理、翻译和转写”的实时语音产品且三款模型已开放给开发者测试。三款模型的场景分工与价格这次更新重点是三款模型的不同场景分工。GPT-Realtime-2面向实时语音Agent场景是OpenAI首个具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中途打断并在更长语音会话中维持上下文。GPT-Realtime-Translate面向实时语音翻译场景支持70多种输入语言到13种输出语言。GPT-Realtime-Whisper面向实时语音转写能在人说话时生成文本用于字幕、会议记录和工作流更新。同时价格也同步公布GPT-Realtime-2按token计费音频输入起价为32美元/百万token音频输出为64美元/百万tokenGPT-Realtime-Translate按分钟计费价格为0.034美元/分钟GPT-Realtime-Whisper同样按分钟计费价格为0.017美元/分钟。模型应用案例与能力特点相关报道显示Zillow、Priceline和德国电信等企业用户已在测试这些模型。这是OpenAI过去一年语音路线的延伸。从2024年开放ChatGPT高级语音模式背后的低延迟语音能力到2025年推出首个正式版Gpt-Realtime再到今年2月Gpt-Realtime-1.5成为上一代主力模型如今的2.0版本三大模型矩阵更像是Realtime产品线从体验功能走向企业API的版本升级。先看GPT-Realtime-2它是第一款具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中断并在长语音会话中保持上下文对应语音Agent落地常见问题。它把上下文窗口从32K提升到128K对长会话场景意义重大。工具调用也是更新关键词RealtimeAPI可构建调用工具的语音体验。美国房地产信息查询网站Zillow用GPT-Realtime-2构建语音助手在对抗性测试中电话任务成功率从69%提升到95%FairHousing相关合规表现更稳定。Booking子公司Priceline也在测试GPT-Realtime-2系列语音Agent若稳定接入后台系统有望把“问答”推进到“办事”。德国电信也是已知客户电信行业是语音模型落地的天然场景。GPT-Realtime-2还有可调推理强度的细节开发者可根据任务复杂程度调整推理强度平衡性能和响应。OpenAI称GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%在Audio MultiChallenge上高13.8%。第二款模型GPT-Realtime-Translate主打实时语音到语音翻译适合广播、直播、电话和视频对话能自动识别输入语言输出翻译后的语音和文本支持70多种输入语言到13种输出语言更接近连续口译形态。OpenAI将其场景分为广播式翻译和对话式翻译覆盖企业付费的跨语言场景。第三款模型GPT-Realtime-Whisper强调实时流式转写可生成字幕、会议记录和工作流更新商业门槛最低价格仅为0.017美元/分钟。OpenAI的商业布局与市场竞争三款模型将实时音频拆成三个明确入口OpenAI欲在差异化路线上“通吃”语音AI市场。除Zillow、Priceline和德国电信外视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom、面向企业语音Agent的BolnaAI等也在使用这批语音模型。GPT-Realtime系列已成为OpenAI成熟的商业化版图覆盖多类开发者。语音AI市场升温ElevenLabs靠AI配音等业务出圈今年2月完成5亿美元D轮融资估值达110亿美元近期年化经常性收入超5亿美元。Deepgram长期做语音识别基础设施近年补上文本转语音和语音Agent接口。Cartesia主打低延迟和实时交互其Sonic系列强调低延迟文本转语音。早期TTS竞争注重声音像真人如今语音Agent要求完整链路。OpenAI优势在于模型栈可将企业调用TTS的链路放在同一开发者平台降低开发者和企业成本。不过语音市场不缺强势玩家ElevenLabs、Deepgram、Cartesia都有不错表现。奥特曼称GPT-Realtime-2进入API是“相当大的一步前进”OpenAI还在改进ChatGPT语音体验。从企业用户测试情况看OpenAI新一代语音模型值得期待。那么OpenAI能否在语音AI市场取得更大成功呢

相关文章:

OpenAI发布三款音频模型,欲借差异化路线“通吃”语音AI市场!

OpenAI发布三款音频模型昨天凌晨,OpenAI发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。OpenAI官网称,新模型能让开发者构建可在用户说话时“推理、翻译和转写”的实时语音产品,且三款模型已…...

AI模型评估:超越准确率,构建可信赖的实用系统

1. 模型评估的迷思:为什么“准确率”会骗人?想象一下,你刚给家里装了一套最新的智能安防摄像头。商家宣传它搭载了顶尖的AI人脸识别算法,能在毫秒间分辨家人与陌生人,让你高枕无忧。你相信了,因为产品手册上…...

QYYB-01 无线雨量报警仪---雨情监测的智能哨兵

在防汛减灾、水文监测、农业灌溉等众多领域,实时精准掌握降雨量变化至关重要。无线雨量报警仪,作为一款集实时测量、数据传输、智能报警与数据管理于一体的专业设备,凭借其稳定可靠的性能,成为雨情监测场景中的核心装备。该设备由…...

Elasticvue节点版本监控:如何实时掌握集群升级状态

Elasticvue节点版本监控:如何实时掌握集群升级状态 【免费下载链接】elasticvue Elasticsearch gui - desktop app, browser extension, docker, self hosted 项目地址: https://gitcode.com/gh_mirrors/el/elasticvue 想象一下,你正在管理一个大…...

开源免费的WPS AI 软件 察元AI文档助手:链路 038:runChunkedPlainDocumentExecution 多块 chatCompletion

链路 038:runChunkedPlainDocumentExecution 多块 chatCompletion 总体链路图 下图在全系列各篇保持一致,仅通过高亮样式标示本篇所覆盖的环节;箭头表示主成功路径,点线为异常或可选路径。阅读任意一篇时都应能回到本图定位&…...

AI写论文的利器!4款AI论文生成工具,助你写出高质量论文!

写论文烦恼多?四款AI工具来救你! 还是在为写期刊论文感到头痛吗?面对庞大的文献资料、繁琐的格式要求以及无尽的修改,许多学术工作者都感到效率低下!别担心,下面为你推荐四款实测有效的AI论文写作工具&…...

Maya到WebGL的3D资产桥梁:终极glTF导出插件实战指南

Maya到WebGL的3D资产桥梁:终极glTF导出插件实战指南 【免费下载链接】maya-glTF glTF 2.0 exporter for Autodesk Maya 项目地址: https://gitcode.com/gh_mirrors/ma/maya-glTF 想要将Maya中精心制作的3D模型无缝转换到WebGL、游戏引擎或移动应用吗&#xf…...

手机号逆向查询QQ号终极指南:5分钟快速上手完整教程

手机号逆向查询QQ号终极指南:5分钟快速上手完整教程 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 你是否曾经因为忘记QQ号而无法登录,只能对着手机号发呆?或者需要验证多个账号的归属关系却无从…...

心跳同步:一次零窗口期的金融交易服务器“无感”迁移实战

摘要:如何在业务不停机的前提下,完成承载高频交易算法的核心服务器跨机房迁移?本文深度复盘了一次金融级服务器的“无感迁移”实战,从源系统的“数字孪生”测绘,到亚微秒级的性能调试,再到标准化的迁移产品…...

Layout中,左侧显示的层,电气层和常规层是区别是什么

在 PADS Layout 左侧的层列表中,电气层 (Electrical Layers) 和 常规层 (General Layers) 有着本质的区别:特性电气层常规层是否导电✅ 是(铜箔)❌ 否(油墨、图纸、标记)主要功能承载走线、铺铜、电源/地平…...

别只盯着‘外挂’:聊聊YOLOv5在FPS游戏中的另类应用与伦理边界

YOLOv5在FPS游戏中的创新应用与伦理思考:超越外挂的技术边界 当计算机视觉遇上电子竞技,技术的光谱往往在"作弊工具"与"创新赋能"之间摇摆。YOLOv5作为当前最轻量高效的目标检测框架之一,正在游戏产业引发一场静悄悄的革…...

探索GEO优化监控工具国产工具推荐哪家:5款行业工具盘点

随着生成式人工智能(AI)搜索逐渐改变用户获取信息的路径,品牌在AI问答平台中的可见度日益受到重视。根据中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》,截至2025年10月我国生成式AI用户…...

3步免费解锁iPhone激活锁:applera1n终极指南

3步免费解锁iPhone激活锁:applera1n终极指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 当您从朋友那里获得一部二手iPhone,或者忘记了多年前绑定的Apple ID密码时&#xf…...

从代工到品牌,他们用这套方法实现了溢价

引言在当今竞争激烈的市场环境中,许多中小企业面临着“有产品无品牌”的困境。如何在有限的预算下打造一个具有影响力的中国品牌?如何将创始人的故事转化为品牌资产?这些问题困扰着无数企业家。今天,我们将分享一个真实案例——「…...

如何做好营销策划?营销策划的步骤是什么?

从代工到品牌:中小企业如何用“创意岛之光品牌100工程”实现溢价引言在当今竞争激烈的市场环境中,许多中小企业面临着“有产品无品牌”的困境。他们拥有优质的产品和技术,却缺乏清晰的品牌定位和价值表达。这不仅限制了企业的市场竞争力&…...

别只看结果!手把手教你解读YOLOv8在COCO128上的训练日志与验证报告

解码YOLOv8训练日志:从数据波动中洞察模型性能 训练一个目标检测模型就像在迷雾中航行——终端不断刷新的数字海洋里,隐藏着模型学习的真实轨迹。当你在COCO128数据集上运行YOLOv8时,那些看似晦涩的指标实际上是模型与你对话的语言。本文将带…...

别再只会用np.percentile了!手把手教你用Python实现空气质量数据(如臭氧)的百分位数计算

从零实现百分位数计算:解锁空气质量数据分析的底层逻辑 在环境监测领域,臭氧浓度的第90百分位数是评估空气质量的关键指标之一。许多数据分析师习惯性地调用np.percentile()函数,却对背后的数学原理一知半解。当遇到缺失值处理或特殊插值需求…...

STM32 DAC输出波形不稳?从原理到代码,详解数据对齐与参考电压那些坑

STM32 DAC输出波形不稳?从原理到代码,详解数据对齐与参考电压那些坑 当你第一次在示波器上看到STM32的DAC输出波形出现毛刺或电压跳变时,可能会感到困惑——明明按照官方例程配置了所有参数,为什么输出质量还是不尽如人意&#xf…...

2026届学术党必备的五大AI辅助论文方案实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 使AI生成痕迹得以降低的核心指令,着重聚焦于对人类思维非线性特征予以模拟。于表…...

Keysight MX0025A InfiniiMax Ultra 探头放大器,25 GHz

特点 使用 25 GHz 探头放大器(AP2)可以测试和验证 DDR5 / MIPI 等高速技术。 在中频频段内提供更高输入阻抗,实现低能耗探测。 超低信号衰减有助于提高测试裕量。 可以使用超灵活的微型探头探测小型器件,也可在众多兼容的探头中选…...

安捷伦 Agilent 33522B 信号发生器

主要特性与技术指标 可为要求 苛刻的测量生成各种信号 谐波失真低 5 倍的正弦波,可生成更纯净的信号 高达 20 MHz 且抖动小 10 倍的脉冲,可提供更 的计时 逐点生成任意波形和排序能力,可以更 地显示用户定义的信号 仪器特性 160 MSa/s 采样率…...

别再用PVE了!在Debian 12裸机上用QEMU直通网卡给OpenWRT,性能更猛

裸机QEMU直通方案:突破虚拟化瓶颈的OpenWRT性能优化实践 当你在深夜调试家庭网络时,是否经历过这样的场景:明明硬件配置足够强大,但通过PVE虚拟化的OpenWRT总是无法跑满千兆带宽,游戏延迟时不时出现波动,而…...

判断AI回答内容真伪的系统分析方法

一、核心挑战 AI生成的内容存在几类典型问题: 幻觉(Hallucination):AI以高置信度输出不存在的事实、引用、数据 过时信息:训练数据有截止日期,输出可能已失效 混淆性正确:大方向对&#xff0c…...

MTKClient终极指南:三步解决联发科设备黑砖与无限重启问题

MTKClient终极指南:三步解决联发科设备黑砖与无限重启问题 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient 你是否遇到过联发科设备突然黑屏、无限重启,甚至完全变砖…...

库早报|刚刚,陕西3D打印公司完成A+轮融资;飞熊八喷头FDM即将众筹;欧洲法院驳回Stratasys对拓竹H2C禁令申请

2026年5月7日 星期四 01 固相增材企业陕西智拓完成A轮融资 天眼查APP显示,陕西智拓固相增材制造技术有限公司完成A轮融资,融资额未披露,陕西金资、陕西科技创投等机构参投。 公司成立于2016年9月,专注扩散焊固相增材制造技术&am…...

在Hermes Agent项目中接入自定义大模型提供方

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Hermes Agent项目中接入自定义大模型提供方 基础教程类,指导正在使用Hermes Agent框架的开发者如何集成Taotoken服务…...

Python+Pytest-BDD UIAPI自动化测试项目架构设计与落地实践

文章目录前言一、项目介绍二、核心技术栈说明1、核心主体框架:pytest-BDD2、编程语言与底层驱动:Python生态3、UI自动化驱动:桌面端专属适配4、辅助能力全覆盖三、项目目录架构设计逻辑第一层: .agents AI智能辅助能力层第二层&am…...

5分钟终极指南:用XUnity.AutoTranslator免费实现Unity游戏实时翻译

5分钟终极指南:用XUnity.AutoTranslator免费实现Unity游戏实时翻译 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为看不懂外语游戏而烦恼吗?XUnity.AutoTranslator让你轻松打…...

大学计算机专业学C语言好吗 2027就业前景如何

对于计算机专业的学生,C语言不是一个“可选项”,而是一个“必选项”和“优选项”。它的价值远超语言本身:理解计算机的“底层逻辑”:C语言直接操作内存、指针、地址,这迫使你去理解数据在内存中如何存储、函数调用时栈…...

保姆级教程:用K210和STM32搞串口通信,从接线到代码避坑全流程

从零搭建K210与STM32串口通信系统:硬件连接、代码实现与调试全指南 在嵌入式开发中,串口通信是最基础也最常用的外设交互方式之一。无论是传感器数据采集、设备控制指令传输,还是简单的调试信息输出,UART协议都扮演着重要角色。本…...