Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。

这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立,该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能,涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。
参考链接:
微软 Azure OpenAI 申请

现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持,这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分,新模型还与 Copilot 集成。
微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。
最新的 Azure OpenAI 服务公告
此次公告延续了 Azure OpenAI 服务的一系列重要更新,包括:
-
O1 系列:专为复杂数据高级推理而设计的全新模型系列。在 Azure AI Studio Playground 上进行为期两周的预览后,我们很高兴今天在 Azure 上向开发人员提供该 API。
-
数据区域:实现区域数据驻留以支持客户隐私和合规性。
-
扩展配置部署:为需要专用容量的客户将可用性扩展到全球 SKU。
-
微调的普遍可用性:允许 GPT-4o 和迷你模型针对专门的用例进行定制。
-
值得信赖的人工智能:新工具,包括 Azure AI Studio 中的评估以支持主动风险评估,以及在 DALL*E 生成的图像上加水印。
-
缓存提示(即将推出):通过 GPT-4o 和 o1 模型上的缓存进行更便宜、更快的推理。
这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。
GPT-4o-Realtime-Preview 有什么新功能?
GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。
Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。
超强性能
早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响:
-
响应更快:GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多,从而减少了延迟并实现了更流畅的交互。
-
自然对话:该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调,使对话听起来更具吸引力。
-
多语言支持:该API支持多种语言,允许进行自然的多语言对话,并可应用于面向全球的应用程序。
GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用
GPT-4o-Realtime-Preview 的潜力遍及各个行业,改变了企业的运营方式和用户与技术的互动方式:
-
客户服务:基于语音的聊天机器人和虚拟助手现在可以更自然、更有效地处理客户查询,减少等待时间并提高整体满意度。
-
内容创作:媒体制作人可以利用语音生成技术在视频游戏、播客和电影工作室中彻底改变他们的工作流程。
-
实时翻译:医疗保健和法律服务等行业可以从实时音频翻译中受益,打破语言障碍并促进关键情况下更好的沟通。
用例推动创新
GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益:
-
博世 (德国):集成 GPT-4o-Realtime API for Audio,用于汽车环境中的虚拟现实训练,让消费者和技术人员能够接收语音指导。
“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。”
— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家
-
Lyrebird Health(澳大利亚):使用 GPT-4o-Realtime-Preview 作为医疗副驾驶,总结患者信息并实时自动执行后续任务。
“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”
—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout
-
Azure AI Search:VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索,确保响应有理有据,而不会影响延迟。通过在后端安全地处理模型配置和检索过程,VoiceRAG 提供了一个自然的对话界面,其中包括在用户体验中无缝显示的引文。

微软对值得信赖的人工智能的承诺
Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。
在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。
Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。
GPT-4o-Realtime API 的下一步是什么?
随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。
无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。
相关文章:
Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。 这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术…...
基于IMX6UL的EPIT的定时器实验
定时器是最常用的外设,常常需要使用定时器来完成精准的定时功能,I.MX6U 提供了多 种硬件定时器,有些定时器功能非常强大。本章我们从最基本的 EPIT 定时器开始,学习如何配置EPIT 定时器,使其按照给定的时间,…...
FreeMarker模板引擎入门:从基础到实践的全面指南
前言 什么是FreeMarker FreeMarker是一个基于模板生成文本输出的通用工具,它使用纯Java编写,能够生成HTML、XML、JSON、RTF、Java源代码等多种格式的文本。FreeMarker模板引擎允许将数据模型与模板文件结合,生成动态的文本输出,广…...
YOLOv8模型改进 第十讲 添加全维度动态卷积(Omni-dimensional Dynamic Convolution,ODConv)
本篇文章将介绍一种全新的改进机制——全维度动态卷积ODConv,并展示其在YOLOv8中的实际应用。现全维动态卷积(Omni-dimensional Dynamic Convolution,ODConv)是一种先进的动态卷积设计,旨在通过引入多维注意力机制来提…...
【环境搭建】远程服务器搭建ElasticSearch
参考: 非常详细的阿里云服务器安装ElasticSearch过程..._阿里云服务器使用elasticsearch-CSDN博客 服务器平台:AutoDL 注意: 1、切换为非root用户,su 新用户名,否则ES无法启动 2、安装过程中没有出现设置账号密码…...
机器学习与神经网络:诺贝尔物理学奖的新篇章
机器学习与神经网络:诺贝尔物理学奖的新篇章 引言 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上的首次。诺贝尔物理学奖通常授予在自然现象和物理物质研究方面做出重大贡献的科学家。然而,今年…...
倍福TwinCAT程序中遇到的bug
文章目录 问题描述:TwinCAT嵌入式控制器CX5140在上电启动后,X001网口接网线通讯灯不亮,软件扫描不到硬件网口 解决方法:硬件断电重启后,X001网口恢复正常 问题描述:TwinCAT软件点击激活配置后,…...
R语言实现logistic回归曲线绘制
方式一:编制函数 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码快 f <- function(x){y 1/(1 exp(-x))plot(x,y)}#sigmoid函数 f(x) 方式二:Sigmoid函数代码 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码块 #y<-1/(1exp(-x)) y&…...
零宽字符(ZWSP)
前言 一个“所见非所得”的问题,示例如下: 查看原始DOM发现存在特殊字符: zero-width-space(ZWSP) 零宽空格是一种不可打印的Unicode字符,用于可能需要换行处。 在HTML中,零宽空格可以替代标…...
作业 定时发送邮件
[rootlocalhost zyc]# date -s 12:28 2024年 10月 15日 星期二 12:28:00 CST [rootlocalhost zyc]# vim /etc/chrony.conf [rootlocalhost zyc]# systemctl restart chronyd [rootlocalhost zyc]# date 2024年 10月 15日 星期二 12:36:00 CST [rootlocalhost zyc]# chronyc s…...
【排序】——2.快速排序法(含优化)
快速排序法 递归法 霍尔版本(左右指针法) 1.思路 1、选出一个key,一般是最左边或是最右边的。 2、定义一个begin和一个end,begin从左向右走,end从右向左走。(需要注意的是:若选择最左边的数据作为key,则…...
AnaTraf | 网络分析系统:高效IT运维工具
目录 什么是网络分析系统? 网络分析系统的核心功能 二、网络分析系统在IT运维中的重要性 案例分析:如何快速应对网络拥塞 技巧分享:如何使用网络分析系统优化带宽 网络分析系统的部署与最佳实践 确定监控范围与关键设备 分析结果的可…...
踩坑日记:线上接口超时问题排查
1.背景: 上线后,功能测试. 进入小程序页面发现很慢,耗时超过5秒,打开skywalking发现大量接口耗时都很高. 2.top命令 服务器top命令查看cpu资源发现占用并不高 3.mysql查看sql运行情况 # 当前运行的所有事务 select * from information_schema.innodb_trx; 1 | …...
C语言中的段错误(Segmentation Fault):底层原理及解决方法
引言 在C语言编程中,“段错误”(通常由操作系统信号 SIGSEGV 触发)是一种常见的异常情况,它表明程序试图访问不受保护的内存区域。本文将深入探讨段错误的原因、底层原理、常见情况以及如何调试和解决这类错误。 段错误的定义 …...
1.两数之和 暴力枚举和暴力搜索法
1. 两数之和 已解答 简单 相关标签 相关企业 提示 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相…...
你的收入达到了缴纳个人所得税的标准了吗?
在现代社会,个人所得税作为一种重要的税收形式,已经渗透到了我们每个人的日常生活中。它不仅关乎国家的财政收入,更与每个纳税人的切身利益息息相关。那么,你是否真正了解个人所得税的缴纳标准、计算方法以及相关的税收优惠政策呢…...
【C++贪心】2086. 喂食仓鼠的最小食物桶数|1622
本文涉及知识点 C贪心 LeetCode2086. 喂食仓鼠的最小食物桶数 给你一个下标从 0 开始的字符串 hamsters ,其中 hamsters[i] 要么是: ‘H’ 表示有一个仓鼠在下标 i ,或者’.’ 表示下标 i 是空的。 你将要在空的位置上添加一定数量的食物桶…...
notepad++中实现代码整体缩进和退格
我 | 在这里 ⭐ 全栈开发攻城狮、全网10W粉丝、2022博客之星后端领域Top1、专家博主。 🎓擅长 指导毕设 | 论文指导 | 系统开发 | 毕业答辩 | 系统讲解等。已指导60位同学顺利毕业 ✈️个人公众号:乡下小哥编程。回复 Java全套视频教程 或 前端全套视频教…...
如何调整配置请款单上的立账条件
顾问配置的立账条件取的是供应商档案里面的参数。与实际需求是不相匹配的。采购员商谈的立账条件经常是变化的。 措施:修改模板中立几账条件的OQL语句。 如下: select UFIDA::U9::AP::APBill::APBillHead.APBillLines.AccrueTerm.Name as 立账条件_名…...
骨传导耳机精选:2024最佳骨传导耳机有哪些?分享骨传导耳机top5
随着健康意识的普及,越来越多的人开始注重运动健身,并将音乐作为运动时的重要伴侣。然而,传统耳机在运动时易脱落且不易清洁的问题,给健身爱好者们带来了不少困扰。幸运的是,骨传导耳机的出现为这一问题提供了解决方案…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...
基于ASP.NET+ SQL Server实现(Web)医院信息管理系统
医院信息管理系统 1. 课程设计内容 在 visual studio 2017 平台上,开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的 综合运用 c#.net 知识,在 vs 2017 平台上,进行 ASP.NET 应用程序和简易网站的开发;初步熟悉开发一…...
P3 QT项目----记事本(3.8)
3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...
css的定位(position)详解:相对定位 绝对定位 固定定位
在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
ios苹果系统,js 滑动屏幕、锚定无效
现象:window.addEventListener监听touch无效,划不动屏幕,但是代码逻辑都有执行到。 scrollIntoView也无效。 原因:这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作,从而会影响…...
Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
均衡后的SNRSINR
本文主要摘自参考文献中的前两篇,相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程,其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt 根发送天线, n r n_r nr 根接收天线的 MIMO 系…...
LangChain知识库管理后端接口:数据库操作详解—— 构建本地知识库系统的基础《二》
这段 Python 代码是一个完整的 知识库数据库操作模块,用于对本地知识库系统中的知识库进行增删改查(CRUD)操作。它基于 SQLAlchemy ORM 框架 和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述 该模块…...
