当前位置: 首页 > news >正文

Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用

微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。

这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立,该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能,涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。

参考链接:
微软 Azure OpenAI 申请

现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持,这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分,新模型还与 Copilot 集成。

微软Azure OpenAI服务可以合规、稳定地提供企业用户使用ChatGPT模型的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。

最新的 Azure OpenAI 服务公告 

此次公告延续了 Azure OpenAI 服务的一系列重要更新,包括: 

  • O1 系列:专为复杂数据高级推理而设计的全新模型系列。在 Azure AI Studio Playground 上进行为期两周的预览后,我们很高兴今天在 Azure 上向开发人员提供该 API。 

  • 数据区域:实现区域数据驻留以支持客户隐私和合规性。 

  • 扩展配置部署:为需要专用容量的客户将可用性扩展到全球 SKU。 

  • 微调的普遍可用性:允许 GPT-4o 和迷你模型针对专门的用例进行定制。 

  • 值得信赖的人工智能:新工具,包括 Azure AI Studio 中的评估以支持主动风险评估,以及在 DALL*E 生成的图像上加水印。 

  • 缓存提示(即将推出):通过 GPT-4o 和 o1 模型上的缓存进行更便宜、更快的推理。 

这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。

GPT-4o-Realtime-Preview 有什么新功能? 

GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。 

Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。

超强性能 

早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响: 

  • 响应更快:GPT-4o-Realtime API for Audio 提供的语音响应速度比许多传统的文本转语音引擎快得多,从而减少了延迟并实现了更流畅的交互。 

  • 自然对话:该模型最大限度地减少了人工智能生成的语音中经常出现的机器人语调,使对话听起来更具吸引力。 

  • 多语言支持:该API支持多种语言,允许进行自然的多语言对话,并可应用于面向全球的应用程序。 

GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用 

GPT-4o-Realtime-Preview 的潜力遍及各个行业,改变了企业的运营方式和用户与技术的互动方式: 

  • 客户服务:基于语音的聊天机器人和虚拟助手现在可以更自然、更有效地处理客户查询,减少等待时间并提高整体满意度。 

  • 内容创作:媒体制作人可以利用语音生成技术在视频游戏、播客和电影工作室中彻底改变他们的工作流程。 

  • 实时翻译:医疗保健和法律服务等行业可以从实时音频翻译中受益,打破语言障碍并促进关键情况下更好的沟通。 

用例推动创新 

GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益: 

  • 博世 (德国):集成 GPT-4o-Realtime API for Audio,用于汽车环境中的虚拟现实训练,让消费者和技术人员能够接收语音指导。

“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。” 

— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家 

  • Lyrebird Health(澳大利亚):使用 GPT-4o-Realtime-Preview 作为医疗副驾驶,总结患者信息并实时自动执行后续任务。

“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”

—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout

  • Azure AI Search:VoiceRAG 利用 Azure OpenAI 的 GPT-4o 实时音频模型和 Azure AI Search 创建具有检索增强生成 (RAG) 的高级语音生成 AI 应用程序。该系统集成了实时音频流和函数调用来执行知识库搜索,确保响应有理有据,而不会影响延迟。通过在后端安全地处理模型配置和检索过程,VoiceRAG 提供了一个自然的对话界面,其中包括在用户体验中无缝显示的引文。

微软对值得信赖的人工智能的承诺 

Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。

在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。

Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。

GPT-4o-Realtime API 的下一步是什么?

随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。 

无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。 

相关文章:

Azure OpenAI 服务上线具有音频和语音功能的 GPT-4o-Realtime-Preview,免费申请试用

微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。 这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术…...

基于IMX6UL的EPIT的定时器实验

定时器是最常用的外设,常常需要使用定时器来完成精准的定时功能,I.MX6U 提供了多 种硬件定时器,有些定时器功能非常强大。本章我们从最基本的 EPIT 定时器开始,学习如何配置EPIT 定时器,使其按照给定的时间&#xff0c…...

FreeMarker模板引擎入门:从基础到实践的全面指南

前言 什么是FreeMarker FreeMarker是一个基于模板生成文本输出的通用工具,它使用纯Java编写,能够生成HTML、XML、JSON、RTF、Java源代码等多种格式的文本。FreeMarker模板引擎允许将数据模型与模板文件结合,生成动态的文本输出,广…...

YOLOv8模型改进 第十讲 添加全维度动态卷积(Omni-dimensional Dynamic Convolution,ODConv)

本篇文章将介绍一种全新的改进机制——全维度动态卷积ODConv,并展示其在YOLOv8中的实际应用。现全维动态卷积(Omni-dimensional Dynamic Convolution,ODConv)是一种先进的动态卷积设计,旨在通过引入多维注意力机制来提…...

【环境搭建】远程服务器搭建ElasticSearch

参考: 非常详细的阿里云服务器安装ElasticSearch过程..._阿里云服务器使用elasticsearch-CSDN博客 服务器平台:AutoDL 注意: 1、切换为非root用户,su 新用户名,否则ES无法启动 2、安装过程中没有出现设置账号密码…...

机器学习与神经网络:诺贝尔物理学奖的新篇章

机器学习与神经网络:诺贝尔物理学奖的新篇章 引言 近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这是历史上的首次。诺贝尔物理学奖通常授予在自然现象和物理物质研究方面做出重大贡献的科学家。然而,今年…...

倍福TwinCAT程序中遇到的bug

文章目录 问题描述:TwinCAT嵌入式控制器CX5140在上电启动后,X001网口接网线通讯灯不亮,软件扫描不到硬件网口 解决方法:硬件断电重启后,X001网口恢复正常 问题描述:TwinCAT软件点击激活配置后,…...

R语言实现logistic回归曲线绘制

方式一&#xff1a;编制函数 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码快 f <- function(x){y 1/(1 exp(-x))plot(x,y)}#sigmoid函数 f(x)​ 方式二&#xff1a;Sigmoid函数代码 x<-rnorm(10000)#设置随机种子 #编写绘图函数代码块 #y<-1/(1exp(-x)) y&…...

零宽字符(ZWSP)

前言 一个“所见非所得”的问题&#xff0c;示例如下&#xff1a; 查看原始DOM发现存在特殊字符&#xff1a; zero-width-space&#xff08;ZWSP&#xff09; 零宽空格是一种不可打印的Unicode字符&#xff0c;用于可能需要换行处。 在HTML中&#xff0c;零宽空格可以替代标…...

作业 定时发送邮件

[rootlocalhost zyc]# date -s 12:28 2024年 10月 15日 星期二 12:28:00 CST [rootlocalhost zyc]# vim /etc/chrony.conf [rootlocalhost zyc]# systemctl restart chronyd [rootlocalhost zyc]# date 2024年 10月 15日 星期二 12:36:00 CST [rootlocalhost zyc]# chronyc s…...

【排序】——2.快速排序法(含优化)

快速排序法 递归法 霍尔版本(左右指针法) 1.思路 1、选出一个key&#xff0c;一般是最左边或是最右边的。 2、定义一个begin和一个end&#xff0c;begin从左向右走&#xff0c;end从右向左走。&#xff08;需要注意的是&#xff1a;若选择最左边的数据作为key&#xff0c;则…...

AnaTraf | 网络分析系统:高效IT运维工具

目录 什么是网络分析系统&#xff1f; 网络分析系统的核心功能 二、网络分析系统在IT运维中的重要性 案例分析&#xff1a;如何快速应对网络拥塞 技巧分享&#xff1a;如何使用网络分析系统优化带宽 网络分析系统的部署与最佳实践 确定监控范围与关键设备 分析结果的可…...

踩坑日记:线上接口超时问题排查

1.背景: 上线后,功能测试. 进入小程序页面发现很慢,耗时超过5秒,打开skywalking发现大量接口耗时都很高. 2.top命令 服务器top命令查看cpu资源发现占用并不高 3.mysql查看sql运行情况 # 当前运行的所有事务 select * from information_schema.innodb_trx; 1 | …...

C语言中的段错误(Segmentation Fault):底层原理及解决方法

引言 在C语言编程中&#xff0c;“段错误”&#xff08;通常由操作系统信号 SIGSEGV 触发&#xff09;是一种常见的异常情况&#xff0c;它表明程序试图访问不受保护的内存区域。本文将深入探讨段错误的原因、底层原理、常见情况以及如何调试和解决这类错误。 段错误的定义 …...

1.两数之和 暴力枚举和暴力搜索法

1. 两数之和 已解答 简单 相关标签 相关企业 提示 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案&#xff0c;并且你不能使用两次相…...

你的收入达到了缴纳个人所得税的标准了吗?

在现代社会&#xff0c;个人所得税作为一种重要的税收形式&#xff0c;已经渗透到了我们每个人的日常生活中。它不仅关乎国家的财政收入&#xff0c;更与每个纳税人的切身利益息息相关。那么&#xff0c;你是否真正了解个人所得税的缴纳标准、计算方法以及相关的税收优惠政策呢…...

【C++贪心】2086. 喂食仓鼠的最小食物桶数|1622

本文涉及知识点 C贪心 LeetCode2086. 喂食仓鼠的最小食物桶数 给你一个下标从 0 开始的字符串 hamsters &#xff0c;其中 hamsters[i] 要么是&#xff1a; ‘H’ 表示有一个仓鼠在下标 i &#xff0c;或者’.’ 表示下标 i 是空的。 你将要在空的位置上添加一定数量的食物桶…...

notepad++中实现代码整体缩进和退格

我 | 在这里 ⭐ 全栈开发攻城狮、全网10W粉丝、2022博客之星后端领域Top1、专家博主。 &#x1f393;擅长 指导毕设 | 论文指导 | 系统开发 | 毕业答辩 | 系统讲解等。已指导60位同学顺利毕业 ✈️个人公众号&#xff1a;乡下小哥编程。回复 Java全套视频教程 或 前端全套视频教…...

如何调整配置请款单上的立账条件

顾问配置的立账条件取的是供应商档案里面的参数。与实际需求是不相匹配的。采购员商谈的立账条件经常是变化的。 措施&#xff1a;修改模板中立几账条件的OQL语句。 如下&#xff1a; select UFIDA::U9::AP::APBill::APBillHead.APBillLines.AccrueTerm.Name as 立账条件_名…...

骨传导耳机精选:2024最佳骨传导耳机有哪些?分享骨传导耳机top5

随着健康意识的普及&#xff0c;越来越多的人开始注重运动健身&#xff0c;并将音乐作为运动时的重要伴侣。然而&#xff0c;传统耳机在运动时易脱落且不易清洁的问题&#xff0c;给健身爱好者们带来了不少困扰。幸运的是&#xff0c;骨传导耳机的出现为这一问题提供了解决方案…...

for循环与webAPI练习题

爱太容易了&#xff0c;让爱维持才是最困难的部分 文章目录 for循环练习题webAPI练习题 for循环练习题 练习1&#xff1a;计算1-100的和 let sum 0for (let i 1; i < 100; i) {sum i}console.log(sum)练习2&#xff1a;将1-100之间所有是6的倍数的数字输出到控制台 for …...

FLUX | 轻松掌握FLUX.1 LoRA本地训练秘籍!

在数字艺术和创意领域&#xff0c;FLUX以其独特的虚实结合技术&#xff0c;已经成为艺术家和设计师们手中的利器。今天&#xff0c;我们激动地宣布&#xff0c;FLUX推出了一款全新的FLUX.1版本&#xff0c;它将LoRA本地训练技术完美融合&#xff0c;为用户提供了更加便捷和高效…...

LeetCode 每日一题 最小元素和最大元素的最小平均值

最小元素和最大元素的最小平均值 你有一个初始为空的浮点数数组 averages。另给你一个包含 n 个整数的数组 nums&#xff0c;其中 n 为偶数。 你需要重复以下步骤 n / 2 次&#xff1a; 从 nums 中移除 最小 的元素 minElement 和 最大 的元素 maxElement。 将 (minElement ma…...

PHP学习记录-编辑器推荐和本地环境的安装

文章目录 一&#xff0c;编辑器首推VSCode1&#xff0c;vscode2&#xff0c;PHPStorm 二&#xff0c;PHP环境搭建1&#xff0c;下载安装2&#xff0c;使用phpstudy创建站点3&#xff0c;答疑解惑 一&#xff0c;编辑器首推VSCode 1&#xff0c;vscode 对于PHP新手来说&#x…...

嵌套div导致子区域margin失效问题解决

嵌套div导致子区域margin失效问题解决 现象原因解决方法 现象 <div class"prev"></div> <div class"parent"><div class"child"></div><div class"child"></div> </div> <div cl…...

搭建app业务的服务器优势类型用途等

APP服务器的服务类型有哪些 APP服务器主要包括API服务器、数据库服务器、Web服务器等。API服务器可以提供登录、注册、查询、更新等各种API服务&#xff0c;为APP提供更方便的功能&#xff1b;数据库服务器可以存储APP数据&#xff0c;访问更快、更安全&#xff1b;Web服务器可…...

基于Springboot+Vue的个性化推荐影院(含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 这个系…...

SpringMVC后台控制端校验-表单验证深度分析与实战优化

前言 在实战开发中&#xff0c;数据校验也是十分重要的环节之一&#xff0c;数据校验大体分为三部分&#xff1a; 前端校验后端校验数据库校验 本文讲解如何在后端控制端进行表单校验的工作 案例实现 在进行项目开发的时候,前端(jquery-validate),后端,数据库都要进行相关的数据…...

Codeforces Round 770 (Div. 2)

比赛链接&#xff1a;Dashboard - Codeforces Round 770 (Div. 2) - Codeforces A. Reverse and Concatenate 题意&#xff1a; 思路&#xff1a; 假设 s "abba" 经过1次操作后 -> "abbaabba" s "abcd" 经过一次操作后 -> "abcd…...

ProteinMPNN中蛋白质特征提取

函数 featurize 的主要作用是将一批蛋白质序列和结构信息转化为深度学习模型可以接受的特征矩阵。它在处理蛋白质多链结构(即多个链的蛋白质复合体)时,考虑了可见链和被掩码链的区分。 代码: import torch import numpy as np import csv import time import os import r…...