Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。
这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立,该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能,涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。
参考链接:
微软 Azure OpenAI 申请
现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持,这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分,新模型还与 Copilot 集成。
微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。
最新的 Azure OpenAI 服务公告
此次公告延续了 Azure OpenAI 服务的一系列重要更新,包括:
-
O1 系列:专为复杂数据高级推理而设计的全新模型系列。在 Azure AI Studio Playground 上进行为期两周的预览后,我们很高兴今天在 Azure 上向开发人员提供该 API。
-
数据区域:实现区域数据驻留以支持客户隐私和合规性。
-
扩展配置部署:为需要专用容量的客户将可用性扩展到全球 SKU。
-
微调的普遍可用性:允许 GPT-4o 和迷你模型针对专门的用例进行定制。
-
值得信赖的人工智能:新工具,包括 Azure AI Studio 中的评估以支持主动风险评估,以及在 DALL*E 生成的图像上加水印。
-
缓存提示(即将推出):通过 GPT-4o 和 o1 模型上的缓存进行更便宜、更快的推理。
这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。
GPT-4o-Realtime-Preview 有什么新功能?
GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。
Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。
超强性能
早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响:
-
响应更快:GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多,从而减少了延迟并实现了更流畅的交互。
-
自然对话:该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调,使对话听起来更具吸引力。
-
多语言支持:该API支持多种语言,允许进行自然的多语言对话,并可应用于面向全球的应用程序。
GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用
GPT-4o-Realtime-Preview 的潜力遍及各个行业,改变了企业的运营方式和用户与技术的互动方式:
-
客户服务:基于语音的聊天机器人和虚拟助手现在可以更自然、更有效地处理客户查询,减少等待时间并提高整体满意度。
-
内容创作:媒体制作人可以利用语音生成技术在视频游戏、播客和电影工作室中彻底改变他们的工作流程。
-
实时翻译:医疗保健和法律服务等行业可以从实时音频翻译中受益,打破语言障碍并促进关键情况下更好的沟通。
用例推动创新
GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益:
-
博世 (德国):集成 GPT-4o-Realtime API for Audio,用于汽车环境中的虚拟现实训练,让消费者和技术人员能够接收语音指导。
“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。”
— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家
-
Lyrebird Health(澳大利亚):使用 GPT-4o-Realtime-Preview 作为医疗副驾驶,总结患者信息并实时自动执行后续任务。
“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”
—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout
-
Azure AI Search:VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索,确保响应有理有据,而不会影响延迟。通过在后端安全地处理模型配置和检索过程,VoiceRAG 提供了一个自然的对话界面,其中包括在用户体验中无缝显示的引文。
微软对值得信赖的人工智能的承诺
Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。
在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。
Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。
GPT-4o-Realtime API 的下一步是什么?
随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。
无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。
相关文章:

Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。 这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术…...

基于IMX6UL的EPIT的定时器实验
定时器是最常用的外设,常常需要使用定时器来完成精准的定时功能,I.MX6U 提供了多 种硬件定时器,有些定时器功能非常强大。本章我们从最基本的 EPIT 定时器开始,学习如何配置EPIT 定时器,使其按照给定的时间,…...

FreeMarker模板引擎入门:从基础到实践的全面指南
前言 什么是FreeMarker FreeMarker是一个基于模板生成文本输出的通用工具,它使用纯Java编写,能够生成HTML、XML、JSON、RTF、Java源代码等多种格式的文本。FreeMarker模板引擎允许将数据模型与模板文件结合,生成动态的文本输出,广…...

YOLOv8模型改进 第十讲 添加全维度动态卷积(Omni-dimensional Dynamic Convolution,ODConv)
本篇文章将介绍一种全新的改进机制——全维度动态卷积ODConv,并展示其在YOLOv8中的实际应用。现全维动态卷积(Omni-dimensional Dynamic Convolution,ODConv)是一种先进的动态卷积设计,旨在通过引入多维注意力机制来提…...

【环境搭建】远程服务器搭建ElasticSearch
参考: 非常详细的阿里云服务器安装ElasticSearch过程..._阿里云服务器使用elasticsearch-CSDN博客 服务器平台:AutoDL 注意: 1、切换为非root用户,su 新用户名,否则ES无法启动 2、安装过程中没有出现设置账号密码…...
机器学习与神经网络:诺贝尔物理学奖的新篇章
机器学习与神经网络:诺贝尔物理学奖的新篇章 引言 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上的首次。诺贝尔物理学奖通常授予在自然现象和物理物质研究方面做出重大贡献的科学家。然而,今年…...

倍福TwinCAT程序中遇到的bug
文章目录 问题描述:TwinCAT嵌入式控制器CX5140在上电启动后,X001网口接网线通讯灯不亮,软件扫描不到硬件网口 解决方法:硬件断电重启后,X001网口恢复正常 问题描述:TwinCAT软件点击激活配置后,…...

R语言实现logistic回归曲线绘制
方式一:编制函数 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码快 f <- function(x){y 1/(1 exp(-x))plot(x,y)}#sigmoid函数 f(x) 方式二:Sigmoid函数代码 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码块 #y<-1/(1exp(-x)) y&…...

零宽字符(ZWSP)
前言 一个“所见非所得”的问题,示例如下: 查看原始DOM发现存在特殊字符: zero-width-space(ZWSP) 零宽空格是一种不可打印的Unicode字符,用于可能需要换行处。 在HTML中,零宽空格可以替代标…...
作业 定时发送邮件
[rootlocalhost zyc]# date -s 12:28 2024年 10月 15日 星期二 12:28:00 CST [rootlocalhost zyc]# vim /etc/chrony.conf [rootlocalhost zyc]# systemctl restart chronyd [rootlocalhost zyc]# date 2024年 10月 15日 星期二 12:36:00 CST [rootlocalhost zyc]# chronyc s…...

【排序】——2.快速排序法(含优化)
快速排序法 递归法 霍尔版本(左右指针法) 1.思路 1、选出一个key,一般是最左边或是最右边的。 2、定义一个begin和一个end,begin从左向右走,end从右向左走。(需要注意的是:若选择最左边的数据作为key,则…...

AnaTraf | 网络分析系统:高效IT运维工具
目录 什么是网络分析系统? 网络分析系统的核心功能 二、网络分析系统在IT运维中的重要性 案例分析:如何快速应对网络拥塞 技巧分享:如何使用网络分析系统优化带宽 网络分析系统的部署与最佳实践 确定监控范围与关键设备 分析结果的可…...

踩坑日记:线上接口超时问题排查
1.背景: 上线后,功能测试. 进入小程序页面发现很慢,耗时超过5秒,打开skywalking发现大量接口耗时都很高. 2.top命令 服务器top命令查看cpu资源发现占用并不高 3.mysql查看sql运行情况 # 当前运行的所有事务 select * from information_schema.innodb_trx; 1 | …...

C语言中的段错误(Segmentation Fault):底层原理及解决方法
引言 在C语言编程中,“段错误”(通常由操作系统信号 SIGSEGV 触发)是一种常见的异常情况,它表明程序试图访问不受保护的内存区域。本文将深入探讨段错误的原因、底层原理、常见情况以及如何调试和解决这类错误。 段错误的定义 …...
1.两数之和 暴力枚举和暴力搜索法
1. 两数之和 已解答 简单 相关标签 相关企业 提示 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相…...

你的收入达到了缴纳个人所得税的标准了吗?
在现代社会,个人所得税作为一种重要的税收形式,已经渗透到了我们每个人的日常生活中。它不仅关乎国家的财政收入,更与每个纳税人的切身利益息息相关。那么,你是否真正了解个人所得税的缴纳标准、计算方法以及相关的税收优惠政策呢…...

【C++贪心】2086. 喂食仓鼠的最小食物桶数|1622
本文涉及知识点 C贪心 LeetCode2086. 喂食仓鼠的最小食物桶数 给你一个下标从 0 开始的字符串 hamsters ,其中 hamsters[i] 要么是: ‘H’ 表示有一个仓鼠在下标 i ,或者’.’ 表示下标 i 是空的。 你将要在空的位置上添加一定数量的食物桶…...

notepad++中实现代码整体缩进和退格
我 | 在这里 ⭐ 全栈开发攻城狮、全网10W粉丝、2022博客之星后端领域Top1、专家博主。 🎓擅长 指导毕设 | 论文指导 | 系统开发 | 毕业答辩 | 系统讲解等。已指导60位同学顺利毕业 ✈️个人公众号:乡下小哥编程。回复 Java全套视频教程 或 前端全套视频教…...

如何调整配置请款单上的立账条件
顾问配置的立账条件取的是供应商档案里面的参数。与实际需求是不相匹配的。采购员商谈的立账条件经常是变化的。 措施:修改模板中立几账条件的OQL语句。 如下: select UFIDA::U9::AP::APBill::APBillHead.APBillLines.AccrueTerm.Name as 立账条件_名…...

骨传导耳机精选:2024最佳骨传导耳机有哪些?分享骨传导耳机top5
随着健康意识的普及,越来越多的人开始注重运动健身,并将音乐作为运动时的重要伴侣。然而,传统耳机在运动时易脱落且不易清洁的问题,给健身爱好者们带来了不少困扰。幸运的是,骨传导耳机的出现为这一问题提供了解决方案…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
基于大模型的 UI 自动化系统
基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
AtCoder 第409场初级竞赛 A~E题解
A Conflict 【题目链接】 原题链接:A - Conflict 【考点】 枚举 【题目大意】 找到是否有两人都想要的物品。 【解析】 遍历两端字符串,只有在同时为 o 时输出 Yes 并结束程序,否则输出 No。 【难度】 GESP三级 【代码参考】 #i…...
Objective-C常用命名规范总结
【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...

linux arm系统烧录
1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 (忘了有没有这步了 估计有) 刷机程序 和 镜像 就不提供了。要刷的时…...
sqlserver 根据指定字符 解析拼接字符串
DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用
一、方案背景 在现代生产与生活场景中,如工厂高危作业区、医院手术室、公共场景等,人员违规打手机的行为潜藏着巨大风险。传统依靠人工巡查的监管方式,存在效率低、覆盖面不足、判断主观性强等问题,难以满足对人员打手机行为精…...
C语言中提供的第三方库之哈希表实现
一. 简介 前面一篇文章简单学习了C语言中第三方库(uthash库)提供对哈希表的操作,文章如下: C语言中提供的第三方库uthash常用接口-CSDN博客 本文简单学习一下第三方库 uthash库对哈希表的操作。 二. uthash库哈希表操作示例 u…...