Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。
这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立,该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能,涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。
参考链接:
微软 Azure OpenAI 申请
现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持,这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分,新模型还与 Copilot 集成。
微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。
最新的 Azure OpenAI 服务公告
此次公告延续了 Azure OpenAI 服务的一系列重要更新,包括:
-
O1 系列:专为复杂数据高级推理而设计的全新模型系列。在 Azure AI Studio Playground 上进行为期两周的预览后,我们很高兴今天在 Azure 上向开发人员提供该 API。
-
数据区域:实现区域数据驻留以支持客户隐私和合规性。
-
扩展配置部署:为需要专用容量的客户将可用性扩展到全球 SKU。
-
微调的普遍可用性:允许 GPT-4o 和迷你模型针对专门的用例进行定制。
-
值得信赖的人工智能:新工具,包括 Azure AI Studio 中的评估以支持主动风险评估,以及在 DALL*E 生成的图像上加水印。
-
缓存提示(即将推出):通过 GPT-4o 和 o1 模型上的缓存进行更便宜、更快的推理。
这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。
GPT-4o-Realtime-Preview 有什么新功能?
GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。
Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。
超强性能
早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响:
-
响应更快:GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多,从而减少了延迟并实现了更流畅的交互。
-
自然对话:该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调,使对话听起来更具吸引力。
-
多语言支持:该API支持多种语言,允许进行自然的多语言对话,并可应用于面向全球的应用程序。
GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用
GPT-4o-Realtime-Preview 的潜力遍及各个行业,改变了企业的运营方式和用户与技术的互动方式:
-
客户服务:基于语音的聊天机器人和虚拟助手现在可以更自然、更有效地处理客户查询,减少等待时间并提高整体满意度。
-
内容创作:媒体制作人可以利用语音生成技术在视频游戏、播客和电影工作室中彻底改变他们的工作流程。
-
实时翻译:医疗保健和法律服务等行业可以从实时音频翻译中受益,打破语言障碍并促进关键情况下更好的沟通。
用例推动创新
GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益:
-
博世 (德国):集成 GPT-4o-Realtime API for Audio,用于汽车环境中的虚拟现实训练,让消费者和技术人员能够接收语音指导。
“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。”
— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家
-
Lyrebird Health(澳大利亚):使用 GPT-4o-Realtime-Preview 作为医疗副驾驶,总结患者信息并实时自动执行后续任务。
“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”
—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout
-
Azure AI Search:VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索,确保响应有理有据,而不会影响延迟。通过在后端安全地处理模型配置和检索过程,VoiceRAG 提供了一个自然的对话界面,其中包括在用户体验中无缝显示的引文。
微软对值得信赖的人工智能的承诺
Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。
在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。
Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。
GPT-4o-Realtime API 的下一步是什么?
随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。
无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。
相关文章:

Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用
微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。 这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术…...

基于IMX6UL的EPIT的定时器实验
定时器是最常用的外设,常常需要使用定时器来完成精准的定时功能,I.MX6U 提供了多 种硬件定时器,有些定时器功能非常强大。本章我们从最基本的 EPIT 定时器开始,学习如何配置EPIT 定时器,使其按照给定的时间,…...

FreeMarker模板引擎入门:从基础到实践的全面指南
前言 什么是FreeMarker FreeMarker是一个基于模板生成文本输出的通用工具,它使用纯Java编写,能够生成HTML、XML、JSON、RTF、Java源代码等多种格式的文本。FreeMarker模板引擎允许将数据模型与模板文件结合,生成动态的文本输出,广…...

YOLOv8模型改进 第十讲 添加全维度动态卷积(Omni-dimensional Dynamic Convolution,ODConv)
本篇文章将介绍一种全新的改进机制——全维度动态卷积ODConv,并展示其在YOLOv8中的实际应用。现全维动态卷积(Omni-dimensional Dynamic Convolution,ODConv)是一种先进的动态卷积设计,旨在通过引入多维注意力机制来提…...

【环境搭建】远程服务器搭建ElasticSearch
参考: 非常详细的阿里云服务器安装ElasticSearch过程..._阿里云服务器使用elasticsearch-CSDN博客 服务器平台:AutoDL 注意: 1、切换为非root用户,su 新用户名,否则ES无法启动 2、安装过程中没有出现设置账号密码…...
机器学习与神经网络:诺贝尔物理学奖的新篇章
机器学习与神经网络:诺贝尔物理学奖的新篇章 引言 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上的首次。诺贝尔物理学奖通常授予在自然现象和物理物质研究方面做出重大贡献的科学家。然而,今年…...

倍福TwinCAT程序中遇到的bug
文章目录 问题描述:TwinCAT嵌入式控制器CX5140在上电启动后,X001网口接网线通讯灯不亮,软件扫描不到硬件网口 解决方法:硬件断电重启后,X001网口恢复正常 问题描述:TwinCAT软件点击激活配置后,…...

R语言实现logistic回归曲线绘制
方式一:编制函数 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码快 f <- function(x){y 1/(1 exp(-x))plot(x,y)}#sigmoid函数 f(x) 方式二:Sigmoid函数代码 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码块 #y<-1/(1exp(-x)) y&…...

零宽字符(ZWSP)
前言 一个“所见非所得”的问题,示例如下: 查看原始DOM发现存在特殊字符: zero-width-space(ZWSP) 零宽空格是一种不可打印的Unicode字符,用于可能需要换行处。 在HTML中,零宽空格可以替代标…...
作业 定时发送邮件
[rootlocalhost zyc]# date -s 12:28 2024年 10月 15日 星期二 12:28:00 CST [rootlocalhost zyc]# vim /etc/chrony.conf [rootlocalhost zyc]# systemctl restart chronyd [rootlocalhost zyc]# date 2024年 10月 15日 星期二 12:36:00 CST [rootlocalhost zyc]# chronyc s…...

【排序】——2.快速排序法(含优化)
快速排序法 递归法 霍尔版本(左右指针法) 1.思路 1、选出一个key,一般是最左边或是最右边的。 2、定义一个begin和一个end,begin从左向右走,end从右向左走。(需要注意的是:若选择最左边的数据作为key,则…...

AnaTraf | 网络分析系统:高效IT运维工具
目录 什么是网络分析系统? 网络分析系统的核心功能 二、网络分析系统在IT运维中的重要性 案例分析:如何快速应对网络拥塞 技巧分享:如何使用网络分析系统优化带宽 网络分析系统的部署与最佳实践 确定监控范围与关键设备 分析结果的可…...

踩坑日记:线上接口超时问题排查
1.背景: 上线后,功能测试. 进入小程序页面发现很慢,耗时超过5秒,打开skywalking发现大量接口耗时都很高. 2.top命令 服务器top命令查看cpu资源发现占用并不高 3.mysql查看sql运行情况 # 当前运行的所有事务 select * from information_schema.innodb_trx; 1 | …...

C语言中的段错误(Segmentation Fault):底层原理及解决方法
引言 在C语言编程中,“段错误”(通常由操作系统信号 SIGSEGV 触发)是一种常见的异常情况,它表明程序试图访问不受保护的内存区域。本文将深入探讨段错误的原因、底层原理、常见情况以及如何调试和解决这类错误。 段错误的定义 …...
1.两数之和 暴力枚举和暴力搜索法
1. 两数之和 已解答 简单 相关标签 相关企业 提示 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相…...

你的收入达到了缴纳个人所得税的标准了吗?
在现代社会,个人所得税作为一种重要的税收形式,已经渗透到了我们每个人的日常生活中。它不仅关乎国家的财政收入,更与每个纳税人的切身利益息息相关。那么,你是否真正了解个人所得税的缴纳标准、计算方法以及相关的税收优惠政策呢…...

【C++贪心】2086. 喂食仓鼠的最小食物桶数|1622
本文涉及知识点 C贪心 LeetCode2086. 喂食仓鼠的最小食物桶数 给你一个下标从 0 开始的字符串 hamsters ,其中 hamsters[i] 要么是: ‘H’ 表示有一个仓鼠在下标 i ,或者’.’ 表示下标 i 是空的。 你将要在空的位置上添加一定数量的食物桶…...

notepad++中实现代码整体缩进和退格
我 | 在这里 ⭐ 全栈开发攻城狮、全网10W粉丝、2022博客之星后端领域Top1、专家博主。 🎓擅长 指导毕设 | 论文指导 | 系统开发 | 毕业答辩 | 系统讲解等。已指导60位同学顺利毕业 ✈️个人公众号:乡下小哥编程。回复 Java全套视频教程 或 前端全套视频教…...

如何调整配置请款单上的立账条件
顾问配置的立账条件取的是供应商档案里面的参数。与实际需求是不相匹配的。采购员商谈的立账条件经常是变化的。 措施:修改模板中立几账条件的OQL语句。 如下: select UFIDA::U9::AP::APBill::APBillHead.APBillLines.AccrueTerm.Name as 立账条件_名…...

骨传导耳机精选:2024最佳骨传导耳机有哪些?分享骨传导耳机top5
随着健康意识的普及,越来越多的人开始注重运动健身,并将音乐作为运动时的重要伴侣。然而,传统耳机在运动时易脱落且不易清洁的问题,给健身爱好者们带来了不少困扰。幸运的是,骨传导耳机的出现为这一问题提供了解决方案…...

《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...
uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖
在前面的练习中,每个页面需要使用ref,onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入,需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
【生成模型】视频生成论文调研
工作清单 上游应用方向:控制、速度、时长、高动态、多主体驱动 类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合
在汽车智能化的汹涌浪潮中,车辆不再仅仅是传统的交通工具,而是逐步演变为高度智能的移动终端。这一转变的核心支撑,来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒(T-Box)方案:NXP S32K146 与…...

七、数据库的完整性
七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...
C#学习第29天:表达式树(Expression Trees)
目录 什么是表达式树? 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询 表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持: 3.性能优化 4.元数据处理 5.代码转换和重写 适用场景 代码复杂性…...

Golang——7、包与接口详解
包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...
Vue 模板语句的数据来源
🧩 Vue 模板语句的数据来源:全方位解析 Vue 模板(<template> 部分)中的表达式、指令绑定(如 v-bind, v-on)和插值({{ }})都在一个特定的作用域内求值。这个作用域由当前 组件…...