当前位置: 首页 > news >正文

工作坊报名|使用 TEN 与 Azure,探索你的多模态交互新场景

在这里插入图片描述

GPT-4o Realtime API 发布,语音 AI 技术正在进入一场新的爆发。语音AI技术的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。

  • 实时音频交互: 允许应用程序实时接收并响应语音和文本输入。
  • 自然语音生成: 减少 AI 技术生成的语音机械感,使对话更加人性化
  • 多语言能力: 促进多语言之间的无缝对话,特别适合全球企业的需求。
  • 更快的响应时间: 显著降低延迟,提高语音交互的速度。

现在让我们快速动手来实现一种想法。

在这场工作坊中,你会接触到 TEN Framework,市面上率先兼容了 Realtime API 和 RTC 的实时多模态 AI Agent 框架!以及使用 TEN 开发的多模态 AI Agent — TEN Agent,它能够立即响应你的语音指令,基于视频进行图像理解,并且还能进行网页和天气检索,让你感受到更自然的人机互动体验。

同时,作为全球领先的企业级公有云平台服务,Microsoft Azure OpenAI (海外版) 提供了先进的模型服务,并且全面推动了企业数字化转型的进程,开启了全新的业务模式与应用场景。无论是在客户服务、教育培训,还是娱乐等领域,实时语音和视觉交互能力都将为各行各业带来前所未有的创新机会。

现在报名参与工作坊,使用 TEN framework 与 Azure,尝试自定义一个实时多模态 Agent,即刻探索自己的语音、视频交互的新场景。

在这里插入图片描述

现场有来自 TEN Framework 与微软的答疑指导,还为大家准备了精美茶歇与开发者礼品。即刻报名!

【活动为审核制】

活动时间
12月5日(周四)13:30-17:30

活动地点
北京微软大厦(具体场地审核通过后入群通知)

活动流程
13:00 - 13:30 签到
13:30 - 14:30 主题分享
(1)基于 Azure AI 的端到端语音交互,Zhi Wang,微软创新技术架构师
(2)TEN 开源框架及最佳实践,plutoless,TEN Framework 共同发起者
14:30 - 17:30 动手实操 TEN+Azure (茶歇&礼品)

动手实操 TEN+Azure
我们为大家准备了几步实时多模态 AI Agent 挑战,帮助大家循序渐进地了解、使用 TEN Framework。

•阶段1 在本地把 TEN Agent 跑起来,并使用 STT + LLM + TTS 与 TEN Agent 对话。(1) 使用 camera.va graph;
(2)使用 Azure 提供的 STT/TTS/LLM key, 成功启动 Agent;并可调整 LLM 的提示词(Prompt)、开场白(greeting)等等,自定义你的 Agent 体验。

•阶段2 在 TEN 上体验使用 OpenAI Realtime API。
(1) 使用 v2v graph;
(2)使用 Azure 提供的 Realtime API Key,并成功启动 Agent;并可调整 LLM 的提示词(Prompt)、开场白(greeting)等等,自定义你的 Agent 体验。

•阶段3 在 TEN 上链接 Bing search的插件(extension)增加搜索能力。了解如何调用现成的插件/工具,为你的 Agent 赋予更多功能。完成挑战将获得由微软和 TEN Framework 提供的开发者礼品~

建议报名参与者提前做好如下软硬件配置:
•知识:会用命令行、git 和 Docker;
•提前下载:Docker and Docker compose;
•自备电脑一台。

报名并审核通过后, 将会邀请大家进入工作坊专属答疑群,搞定前序工作,现场专注探索你的实时 AI 场景!

还可参考以下链接:
•Azure OpenAI (海外版) 官方文档:https://learn.microsoft.com/en-us/azure/ai-services/openai/overview
•TEN README 英文:https://github.com/TEN-framework/TEN-Agent
•TEN README 中文:https://github.com/ten-framework/ten-agent/blob/main/docs/readmes/README-CN.md

欢迎报名~
在这里插入图片描述
在这里插入图片描述

相关文章:

工作坊报名|使用 TEN 与 Azure,探索你的多模态交互新场景

GPT-4o Realtime API 发布,语音 AI 技术正在进入一场新的爆发。语音AI技术的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。 实时音频交互: 允许应用程序实时接收并响应语音和文本输入。自然语音生成: 减少 AI 技术生成的语音…...

学习笔记041——Elastic Search的学习与使用以及SpringBoot整合

文章目录 1、Elastic Search介绍1.1、ES 的数据结构1.2、ES 为什么查询快1.3、CRUD 2、Spring Boot 整合 ES 1、Elastic Search介绍 ‌Elasticsearch‌是一个分布式的、基于RESTful API的搜索和分析引擎,广泛用于大规模数据存储和快速检索。它最初由Shay Banon于20…...

R安装rgdal报错 解决办法

尝试了网上很多办法,不知道哪一步解决了,记录一下所有步骤: 1. 尝试github安装 options(repos c(CRAN "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))install.packages("devtools")library(devtools)devtools::in…...

【智能制造-46】人机工程(工厂自动化)

工作空间设计 设备布局规划 根据人体测量学数据,合理安排自动化设备、生产线和工作区域的布局。例如,考虑工人的操作空间和活动范围,确保他们能够舒适地接近和操作设备。在汽车装配车间,机器人和工人的工作区域应划分明确&#…...

C#笔记(5)

一、winform项目与窗体控件 1、部分类的使用 好处:让自动生成的代码后置,我们编写程序的代码显得更加简洁 特点:在最后编译的时候,仍然编译成一个窗体类。 窗体和控件的基本使用 3、Event事件(委托--》事件&#…...

【软件国产化】| Windows和Linux下文件名后缀是否区分大小写

今天在开发过程中遇到了个软件在Linux系统和Windows系统下功能表现不一致的bug,具体表现为: 插入一张图片(A文件夹中的001.jpg),然后使用“图片替换”功能,用B文件夹中的图片(B文件夹中的001.JP…...

讨论JAVA、JVM与Spring

Q1: 作为一个JAVA开发人员,对于jvm肯定不陌生,但很多人对它不陌生也仅止于概念上,而且对概念也是模糊不清的,但jvm实际是java程序运行在其中的实际存在的环境,对它的理解应该要是具象化的。 我们还是从一项技术产生的…...

【04】MySQL数据库和数据表的基本操作详解与实例

文章目录 一、连接MySQL服务器二、数据库的基本操作2.1数据库的基本操作1. 创建数据库2. 选择数据库3. 删除数据库4.查询所有数据库5.修改数据库的字符集 2.2 数据表的基本操作1. 创建数据表2. 查看数据表结构3. 删除数据表4. 修改数据表5. 插入数据6. 查询数据7. 更新数据8. 删…...

Spring中实现动态数据源切换,基于AbstractRoutingDataSource

背景 在项目开发过程中,我们可能会遇到一个场景:某个类型数据源有多个数据源实例,需要我们按照不同的请求切换到不同数据源去。 而目前绝大多数java应用都是基于Spring框架来开发,我们很多时候相关的数据源连接都是交给了Spring框…...

StarRocks-join优化

1、背景 有两个大表,都是6kw级别上下的,通过SR然后包装了一个接口对外提供查询,当前的问题是,这样大的join查询会导致BE直接宕机。并且这个sql很有代表性,我截图如下: 这个表是个单分区,所以直接…...

js 高亮文本中包含的关键词标红

在开发中&#xff0c;遇到需要将文本中包含的关键字高亮的情况&#xff0c;可以做以下处理。 <div class"title"v-html"highlightKeywords(item.title, state1.tags1.concat(state2.tags2).concat(state3.tags3))"> </div> ...... ...... con…...

DVWA靶场——File Inclusion

File Inclusion&#xff08;文件包含&#xff09;漏洞 指攻击者通过恶意构造输入&#xff0c;利用应用程序错误的文件包含机制&#xff0c;导致程序包含并执行未经授权的本地或远程文件。这类漏洞广泛存在于Web应用程序中&#xff0c;尤其是在那些允许用户提供文件路径或URL的地…...

Android Framework禁止弹出当前VOLTE不可用的提示窗口

文章目录 VoLTE简介VoLTE 的优势 当前VOLTE不可用的弹窗弹窗代码定位屏蔽弹出窗口 VoLTE简介 VoLTE&#xff08;Voice over LTE&#xff09;是一种基于4G LTE网络的语音通话技术。它允许用户在4G网络上进行高质量的语音通话和视频通话&#xff0c;而不需要回落到2G或3G网络。V…...

OceanBase 大数据量导入(obloader)

现需要将源数据库&#xff08;Oracle|MySQL等&#xff09;一些表的海量数据迁移到目标数据库 OceanBase 中&#xff0c;基于常规 jdbc 驱动编码的方式涉及开发工作&#xff0c;性能效率也要看编码的处理机制。 OceanBase 官方提供了的 OceanBase Migration Service (OMS) 数据…...

w058基于web的美发门店管理系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0…...

实时数据开发 | checkpoints监控和调优

监控Checkpoints 监控 checkpoint 行为最简单的方法是通过 UI 的 checkpoint 部分。 监控这两个指标: 算子收到第一个 checkpoint barrier 的时间。当触发 checkpoint 的耗费时间一直很高时&#xff0c;这意味着 checkpoint barrier 需要很长时间才能从 source 到达 operator…...

el-tree的使用及控制全选、反选、获取选中

el-tree的使用及控制全选、反选、获取选中 组件使用获取选中的id全选实现反选实现全部代码 组件使用 引入组件&#xff0c;可以参考官网组件引入参考官网示例写好基础数据结构&#xff0c;不知道怎么转换树形机构的看文章&#xff1a;一维数组转树形 <template><el-…...

机器学习(二十五):决策树算法以及决策树和神经网络的对比

一、决策树集合 单一决策树会对训练数据的变化很敏感。例子&#xff1a;输入十个数据&#xff0c;判断是否是猫。只替换其中一个数据&#xff0c;信息增益最高的分裂特征就发生了改变&#xff0c;决策树就发生了变化。 使用决策树集合可以使算法更加健壮。例子&#xff1a;使用…...

新版布谷直播软件源码开发搭建功能更新明细

即将步入2025年也就是山东布谷科技专注直播系统开发,直播软件源码出售开发搭建等业务第9年,山东布谷科技不断更新直播软件功能&#xff0c;以适应当前新市场环境下的新要求。山东布谷科技始终秉承初心&#xff0c;做一款符合广大客户需求的直播系统软件。支持广大客户提交更多个…...

vue3 reactive响应式实现源码

Vue 3 的 reactive 是基于 JavaScript 的 Proxy 实现的&#xff0c;因此它通过代理机制来拦截对象的操作&#xff0c;从而实现响应式数据的追踪。下面是 Vue 3 的 reactive 源码简化版。 Vue 3 reactive 源码简化版 首先&#xff0c;我们需要了解 reactive 是如何工作的&…...

24小时近45亿美元!国产大模型融资狂欢,印奇与杨植麟分道扬镳谁能笑到最后?

向左与向右&#xff1a;两种战略路线的分野2026年5月的第二个交易周&#xff0c;国产大模型赛道融资刷新。5月7日&#xff0c;月之暗面获约20亿美元融资&#xff0c;投后估值超200亿美元&#xff0c;由美团龙珠领投等&#xff1b;5月8日消息&#xff0c;阶跃星辰将完成近25亿美…...

Gemini自动生成PPT实战手册:从零输入到专业演示文稿,3步完成95%的幻灯片工作流

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Gemini自动生成PPT的核心原理与能力边界 Gemini 生成 PPT 的本质并非传统模板填充&#xff0c;而是基于多模态理解与结构化内容重构的端到端推理过程。其核心依赖于对用户输入&#xff08;文本、大纲、…...

3分钟掌握Windows与Office智能激活:KMS_VL_ALL_AIO终极解决方案

3分钟掌握Windows与Office智能激活&#xff1a;KMS_VL_ALL_AIO终极解决方案 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows和Office的激活问题烦恼吗&#xff1f;KMS_VL_ALL_AIO作…...

FanControl完整指南:3步掌握Windows风扇控制,告别噪音烦恼

FanControl完整指南&#xff1a;3步掌握Windows风扇控制&#xff0c;告别噪音烦恼 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/Git…...

别再只复制粘贴了!深入理解阿里云IoT设备三元组(ProductKey/DeviceName/DeviceSecret)的安全与应用

阿里云IoT设备三元组安全实践指南&#xff1a;从基础认知到高级防护策略 在物联网项目开发中&#xff0c;设备身份认证是保障系统安全的第一道防线。许多开发者虽然能够快速完成设备接入&#xff0c;但对认证核心——设备三元组&#xff08;ProductKey/DeviceName/DeviceSecret…...

AI建站工具从0到1全流程保姆级攻略:零代码生成网站就这么简单

AI建站工具从0到1全流程保姆级攻略&#xff1a;零代码生成网站就这么简单被外包公司几万块的报价劝退&#xff1f;被老板催着下周上线活动页却连域名是什么都不清楚&#xff1f;别慌&#xff0c;用AI建站工具&#xff0c;不写一行代码、不学复杂技术&#xff0c;普通人也能在两…...

从SPICE到Q-SPICE:四阶累积量如何重塑阵列信号处理的超分辨能力

1. 从SPICE到Q-SPICE&#xff1a;为什么我们需要四阶累积量&#xff1f; 我第一次接触SPICE算法是在处理雷达信号的时候。当时团队遇到一个头疼的问题&#xff1a;在强噪声环境下&#xff0c;传统算法就像近视眼观察星空&#xff0c;明明知道那里有信号&#xff0c;却怎么也分辨…...

新手也能看懂的SQL注入绕过实战:以BUUCTF的BabySQL靶场为例,手把手教你双写绕过

从零破解BabySQL&#xff1a;双写绕过的艺术与科学 当你第一次接触CTF比赛中的SQL注入题目时&#xff0c;那种既兴奋又困惑的感觉一定记忆犹新。面对BabySQL这样的靶场&#xff0c;新手常会遇到一个典型困境&#xff1a;明明知道应该用union select来获取数据&#xff0c;却发现…...

从入门到精通:Systrace性能分析实战指南

1. Systrace入门&#xff1a;认识Android性能分析利器 第一次打开Systrace报告时&#xff0c;我完全被那些彩色线条和条形图搞懵了。这玩意儿看起来就像地铁线路图一样复杂&#xff0c;但别担心&#xff0c;它其实是Android开发者最得力的性能分析助手。Systrace是Android SDK自…...

Gemini在Android Automotive OS上的首次深度集成(车规级低延迟通信协议逆向分析+CAN总线AI指令映射表)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Gemini在Android Automotive OS上的首次深度集成&#xff08;车规级低延迟通信协议逆向分析CAN总线AI指令映射表&#xff09; Google Gemini模型通过定制化Android Automotive OS&#xff08;AAOS&…...