当前位置: 首页 > article >正文

OpenAI发布三款音频模型,差异化布局欲“通吃”语音AI市场,企业用户已抢先测试

模型分工与价格昨天凌晨OpenAI发布了GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款音频模型。官网称新模型可让开发者构建实时语音产品且已开放测试。这次更新重点是模型场景分工GPT-Realtime-2面向实时语音Agent场景是首个具备“GPT-5级推理”的语音模型GPT-Realtime-Translate面向实时语音翻译场景支持70多种输入语言到13种输出语言GPT-Realtime-Whisper面向实时语音转写。价格方面GPT-Realtime-2按token计费音频输入起价32美元/百万token输出64美元/百万tokenGPT-Realtime-Translate和GPT-Realtime-Whisper按分钟计费分别为0.034美元/分钟和0.017美元/分钟。模型应用案例相关报道显示Zillow、Priceline和德国电信等企业已在测试这些模型这是OpenAI过去一年语音路线的延伸。2024年开放低延迟语音能力2025年8月推出首个正式版Gpt-Realtime今年2月Gpt-Realtime-1.5成上一代主力模型如今2.0版本像是Realtime产品线的升级。GPT-Realtime-2从对话走向执行GPT-Realtime-2能处理复杂请求等解决语音Agent落地问题。它将上下文窗口从32K提升到128K利于长会话。工具调用是更新关键词RealtimeAPI可构建语音体验。美国房地产信息查询网站Zillow用其构建语音助手对抗性测试中电话任务成功率从69%提升到95%FairHousing合规表现更稳定。Booking子公司Priceline也在测试旅游预订中语音Agent有望推进“办事”。德国电信也是客户GPT-Realtime-2有可调推理强度官方测试数据显示其在相关指标上比GPT-Realtime-1.5有提升。GPT-Realtime-Translate主打实时语音到语音翻译适合多种场景能自动识别输入语言输出翻译语音和文本支持70多种输入语言到13种输出语言更接近连续口译形态场景分广播式和对话式覆盖企业付费跨语言场景。GPT-Realtime-Whisper强调实时流式转写可生成字幕等商业门槛最低价格仅0.017美元/分钟。市场格局与竞争三款模型将实时音频拆成三个入口OpenAI欲“通吃”市场。除上述企业还有Vimeo、Glean等也在接入。过去两年ElevenLabs靠AI配音出圈今年2月完成5亿美元D轮融资估值110亿美元近期年化经常性收入超5亿美元。Deepgram长期做语音识别基础设施近年补接口旗下Aura-2文本转语音有低延迟等特点。Cartesia由前斯坦福AI实验室成员创办主打低延迟和实时交互语音产品Sonic系列支持多种语言及控制。早期TTS竞争注重声音如今语音Agent要求更高。OpenAI优势在模型栈可降低成本但语音市场不乏强势玩家。奥特曼称GPT-Realtime-2进入API是重要一步OpenAI还在改进ChatGPT语音体验其新一代语音模型值得期待市场表现。

相关文章:

OpenAI发布三款音频模型,差异化布局欲“通吃”语音AI市场,企业用户已抢先测试

模型分工与价格昨天凌晨,OpenAI发布了GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款音频模型。官网称新模型可让开发者构建实时语音产品,且已开放测试。这次更新重点是模型场景分工,GPT-Realtime-2面向实时语音Agent场景…...

如何5步轻松配置智能象棋助手:零基础部署计算机视觉象棋AI

如何5步轻松配置智能象棋助手:零基础部署计算机视觉象棋AI 【免费下载链接】VinXiangQi Xiangqi syncing tool based on Yolov5 / 基于Yolov5的中国象棋连线工具 项目地址: https://gitcode.com/gh_mirrors/vi/VinXiangQi 想要体验AI辅助下棋的乐趣吗&#x…...

从零构建个性化AI智能体:基于开源框架的实践指南

1. 项目概述:从零构建一个个性化的智能体锻造工坊最近在GitHub上看到一个挺有意思的项目,叫“openclaw-personalized-agent-forge”。光看名字,你可能会觉得这又是一个跟风大语言模型(LLM)的玩具项目。但作为一个在AI应…...

软件定义无线电与认知无线电技术解析及应用

1. 无线通信技术演进:从硬件定义到软件智能 三十多年前,当我第一次以初级射频工程师的身份踏入实验室时,我们还在使用分立晶体管搭建电路,一个简单的接收机可能需要花费数周时间手工调试。如今,我的智能手机里集成了数…...

北斗开发者必看:用C#搞定BDS周内秒与UTC/日历时间的互转(附完整代码)

北斗开发者必看:用C#搞定BDS周内秒与UTC/日历时间的互转(附完整代码) 在北斗卫星导航系统的开发过程中,时间处理是一个基础但极其关键的环节。北斗系统采用独特的"周-周内秒"时间表示法,这与我们日常使用的日…...

构建可进化的AI编程伙伴:模块化智能体与知识库实践

1. 项目概述:一个能自我进化的AI编程伙伴如果你和我一样,每天都要和代码打交道,那你肯定遇到过这样的场景:为了解决一个特定的Bug,你反复搜索、尝试,好不容易找到了解决方案,但几个月后遇到类似…...

Unity WebGL打包体积优化实战:用编辑器脚本一键压缩所有图片(附完整C#代码)

Unity WebGL打包体积优化实战:用编辑器脚本一键压缩所有图片(附完整C#代码) WebGL作为Unity跨平台发布的重要选项,其构建体积直接影响用户体验。一个包含大量高清纹理的项目,未经优化很容易达到数百MB,导致…...

FeedOracle v6.0:为AI Agent构建可验证合规证据的自治预言机网络

1. 项目概述:从合规服务器到自治预言机网络的蜕变如果你正在构建或使用AI Agent来处理金融、法律或任何受监管的业务,那么“合规证据”这个痛点你一定不陌生。Agent可以帮你分析数据、生成报告,但如何向审计方、监管机构甚至法庭证明&#xf…...

别再只会用MOS管了!聊聊可控硅(SCR)在220V交流电机调速中的实战应用(附过零检测电路)

可控硅在220V交流电机调速中的高阶应用指南 引言 每当工程师面对220V交流电机的调速需求时,脑海中首先浮现的往往是MOS管方案。然而,在高压大电流场景下,一种更古老却更可靠的半导体器件正等待着被重新发现——可控硅(SCR&#xf…...

地理优化实战:从选址到路径规划,用算法解决空间决策难题

1. 项目概述:当“地理”遇上“优化”最近在GitHub上看到一个挺有意思的项目,叫capt-marbles/geo-optimization。光看名字,就能嗅到一股浓浓的“交叉学科”味道——地理(Geo)和优化(Optimization&#xff09…...

从硬件到固件:拆解一台老旧PC,用逻辑分析仪抓取RTC唤醒信号的完整流程

从硬件到固件:拆解一台老旧PC,用逻辑分析仪抓取RTC唤醒信号的完整流程 拆开一台2005年的戴尔OptiPlex 755商用主机,灰尘随着螺丝刀的转动簌簌落下。这台服役15年的老将主板上的ICH8南桥芯片,正是我们探索RTC唤醒机制的绝佳实验平台…...

别再死记硬背ASK/FSK/PSK了!用Python+Matplotlib手把手画星座图,5分钟搞懂数字调制

用Python绘制数字调制星座图:从ASK到QAM的实战解析 通信工程师们常说:"星座图是数字调制的DNA图谱。"但翻开教科书,满页的数学公式和抽象描述总让人望而生畏。今天我们将用Python代码这把"手术刀",解剖ASK、F…...

别再乱用cv2.findHomography了!OpenCV透视变换选对函数,图像拼接和文档矫正效率翻倍

OpenCV透视变换实战指南:如何精准选择cv2.findHomography与cv2.getPerspectiveTransform 在计算机视觉项目中,透视变换是实现图像对齐、文档矫正和全景拼接的核心技术。许多开发者虽然熟悉OpenCV的基本操作,却在面对cv2.findHomography和cv2.…...

从圣核到婴儿:复杂系统重构与核心原理的逆向工程实践

1. 项目概述:从“圣核”到“婴儿”的逆向工程之旅最近在技术社区里,一个名为“0BAB1/HOLY_CORE_COURSE”的项目引起了我的注意。这个标题本身就充满了神秘感和技术隐喻。“0BAB1”很容易让人联想到“零号婴儿”或“初始婴儿”,暗示着某种基础…...

Next.js开发效率革命:next-extra一站式集成方案深度解析

1. 项目概述:一个为Next.js深度定制的“瑞士军刀”如果你和我一样,长期在Next.js生态里“摸爬滚打”,那你一定经历过这样的时刻:项目需要国际化,你开始找next-i18next;需要SEO优化,你引入next-s…...

告别 kroki.io:.mmd 与 PlantUML 本地离线渲染方案盘点

https://github.com/BlackwaterTechnology/blogger-agent.git 这个工具自带的 generate-diagram 子命令&#xff0c;实现是 core/diagrams.py 里那五十行代码——把文本 POST 到 https://kroki.io/<dsl>/png&#xff0c;把返回的 PNG 落盘。够用&#xff0c;但有三个绕不…...

开源硬件遥测框架:协议无关设计助力物联网数据采集

1. 项目概述&#xff1a;一个为开源硬件项目量身打造的遥测数据框架最近在折腾一个基于ESP32的智能家居传感器项目&#xff0c;数据上报和状态监控这块儿一直让我头疼。自己从零搭建一套稳定、可扩展的遥测系统&#xff0c;既要处理设备连接、数据序列化&#xff0c;又要考虑服…...

别只盯着YOLOv8检测!用Comake D1的IPU解锁人体姿态估计,实测40ms一帧的落地效果

边缘AI新选择&#xff1a;Comake D1开发板实战YOLOv8-pose人体姿态估计 当YOLOv8在目标检测领域大放异彩时&#xff0c;它的"孪生兄弟"YOLOv8-pose却鲜少被边缘计算开发者关注。这款专为人体姿态估计优化的算法&#xff0c;配合Comake D1开发板的IPU加速&#xff0c;…...

Obsidian插件开发实战:一键在终端打开笔记目录的实现原理

1. 项目概述与核心价值如果你和我一样&#xff0c;是个重度 Obsidian 用户&#xff0c;同时又离不开命令行&#xff0c;那你肯定也遇到过这个痛点&#xff1a;在 Obsidian 的笔记海洋里&#xff0c;突然想对当前笔记所在的文件夹执行一个git status&#xff0c;或者想用code .快…...

Python办公自动化实战:结合ChatGPT实现邮件、PPT、Excel与PDF批量处理

1. 项目概述&#xff1a;用Python与ChatGPT解放你的办公桌如果你每天的工作中&#xff0c;有超过一半的时间都在和Outlook、Excel、PowerPoint、PDF这些“老朋友”打交道&#xff0c;重复着复制粘贴、格式调整、邮件群发、报告生成的机械劳动&#xff0c;那么这篇文章就是为你准…...

保姆级教程:用树莓派4B和Python脚本实现手机蓝牙遥控(附完整代码)

树莓派4B蓝牙遥控实战&#xff1a;从零构建智能交互系统 蓝牙技术早已超越耳机和音箱的局限&#xff0c;成为物联网设备交互的重要桥梁。想象一下&#xff0c;躺在沙发上用手机控制客厅灯光&#xff0c;或是用旧手机改造的遥控器指挥树莓派小车——这些场景的实现核心&#xff…...

VCS仿真卡住了别慌!用+vcs+loopdetect和pstack快速定位Hang死问题

VCS仿真卡住了别慌&#xff01;用vcsloopdetect和pstack快速定位Hang死问题 芯片验证工程师最头疼的瞬间&#xff0c;莫过于仿真运行到一半突然卡住&#xff0c;进度条停止不动&#xff0c;日志也不再更新——这就是典型的"Hang死"现象。面对这种情况&#xff0c;新手…...

ARM CoreSight ETM9调试架构与实现详解

1. ARM CoreSight ETM9技术架构解析1.1 ETM9在ARM调试体系中的定位嵌入式跟踪宏单元(Embedded Trace Macrocell)是ARM处理器调试架构中的关键组件&#xff0c;与传统的JTAG调试形成互补。ETM9作为CoreSight调试系统的一部分&#xff0c;实现了非侵入式的实时指令和数据跟踪能力…...

当你的服务器卡顿或报‘Too many open files’时,用这5个命令快速定位limits.conf瓶颈

当服务器卡顿或报‘Too many open files’时&#xff0c;用这5个命令快速定位limits.conf瓶颈 遇到服务器突然响应变慢&#xff0c;或者日志中频繁出现"Too many open files"错误时&#xff0c;很多运维人员的第一反应是重启服务。但作为经历过多次类似故障的老兵&am…...

Arm Cortex-A75错误记录寄存器架构与RAS机制解析

1. Cortex-A75错误记录寄存器架构解析 在Arm Cortex-A75处理器架构中&#xff0c;错误记录寄存器(Error Record Registers)构成了可靠性、可用性和可维护性(RAS)功能的核心基础设施。这套机制通过专用寄存器组捕获和分类硬件运行时错误&#xff0c;为系统级错误诊断提供硬件支持…...

shell命令和linux命令的区别

shell命令和linux命令的区别:shell是运行在Linux系统上的一个脚本语言&#xff0c;是一个用C语言编写的程序&#xff0c;而linux命令是对linux系统进行管理的命令。shell可以重复或批量地进行一些命令&#xff0c;也可以把重复执行的命令写到脚本里面执行&#xff0c;而linux命…...

技术博客如何避免失效?从硬件设计领域谈内容战略与可持续运营

1. 从“讽刺”到“失效”&#xff1a;一个技术博客的生存启示录朋友给我发了一封邮件&#xff0c;里面是一堆反映生活小讽刺的图片。有些真的很好笑&#xff0c;有些则带点伤感&#xff0c;还有一些会让你在看到那些无意的并置后忍不住倒吸一口凉气——我能想象自己也会干出类似…...

基于MCP协议实现本地ERP与AI助手安全集成:以Subiekt GT为例

1. 项目概述&#xff1a;当波兰ERP遇上AI助手如果你在波兰经营一家中小型企业&#xff0c;或者为这样的企业提供IT服务&#xff0c;那么“Subiekt GT”这个名字对你来说一定不陌生。作为InsERT公司旗下最受欢迎的桌面版ERP系统&#xff0c;它几乎是波兰本土商贸、服务行业财务和…...

SAP BW的一些点/常用命令

这是角色需要&#xff0c;字段不用1.请求号&#xff1a;在单子那里创建请求&#xff0c;请求号&#xff0c;此前单子相关数据需要修改&#xff1b;2.用这个请求号&#xff0c;到PFCG角色维护开发&#xff0c;生成参数文件&#xff0c;包入前面的定制请求传输&#xff08;返回到…...

containers-from-scratch性能优化:容器启动速度提升的5个关键点

containers-from-scratch性能优化&#xff1a;容器启动速度提升的5个关键点 【免费下载链接】containers-from-scratch Writing a container in a few lines of Go code, as seen at DockerCon 2017 and on OReilly Safari 项目地址: https://gitcode.com/gh_mirrors/co/cont…...