当前位置: 首页 > news >正文

工作坊报名|使用 TEN 与 Azure,探索你的多模态交互新场景

在这里插入图片描述

GPT-4o Realtime API 发布,语音 AI 技术正在进入一场新的爆发。语音AI技术的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。

  • 实时音频交互: 允许应用程序实时接收并响应语音和文本输入。
  • 自然语音生成: 减少 AI 技术生成的语音机械感,使对话更加人性化
  • 多语言能力: 促进多语言之间的无缝对话,特别适合全球企业的需求。
  • 更快的响应时间: 显著降低延迟,提高语音交互的速度。

现在让我们快速动手来实现一种想法。

在这场工作坊中,你会接触到 TEN Framework,市面上率先兼容了 Realtime API 和 RTC 的实时多模态 AI Agent 框架!以及使用 TEN 开发的多模态 AI Agent — TEN Agent,它能够立即响应你的语音指令,基于视频进行图像理解,并且还能进行网页和天气检索,让你感受到更自然的人机互动体验。

同时,作为全球领先的企业级公有云平台服务,Microsoft Azure OpenAI (海外版) 提供了先进的模型服务,并且全面推动了企业数字化转型的进程,开启了全新的业务模式与应用场景。无论是在客户服务、教育培训,还是娱乐等领域,实时语音和视觉交互能力都将为各行各业带来前所未有的创新机会。

现在报名参与工作坊,使用 TEN framework 与 Azure,尝试自定义一个实时多模态 Agent,即刻探索自己的语音、视频交互的新场景。

在这里插入图片描述

现场有来自 TEN Framework 与微软的答疑指导,还为大家准备了精美茶歇与开发者礼品。即刻报名!

【活动为审核制】

活动时间
12月5日(周四)13:30-17:30

活动地点
北京微软大厦(具体场地审核通过后入群通知)

活动流程
13:00 - 13:30 签到
13:30 - 14:30 主题分享
(1)基于 Azure AI 的端到端语音交互,Zhi Wang,微软创新技术架构师
(2)TEN 开源框架及最佳实践,plutoless,TEN Framework 共同发起者
14:30 - 17:30 动手实操 TEN+Azure (茶歇&礼品)

动手实操 TEN+Azure
我们为大家准备了几步实时多模态 AI Agent 挑战,帮助大家循序渐进地了解、使用 TEN Framework。

•阶段1 在本地把 TEN Agent 跑起来,并使用 STT + LLM + TTS 与 TEN Agent 对话。(1) 使用 camera.va graph;
(2)使用 Azure 提供的 STT/TTS/LLM key, 成功启动 Agent;并可调整 LLM 的提示词(Prompt)、开场白(greeting)等等,自定义你的 Agent 体验。

•阶段2 在 TEN 上体验使用 OpenAI Realtime API。
(1) 使用 v2v graph;
(2)使用 Azure 提供的 Realtime API Key,并成功启动 Agent;并可调整 LLM 的提示词(Prompt)、开场白(greeting)等等,自定义你的 Agent 体验。

•阶段3 在 TEN 上链接 Bing search的插件(extension)增加搜索能力。了解如何调用现成的插件/工具,为你的 Agent 赋予更多功能。完成挑战将获得由微软和 TEN Framework 提供的开发者礼品~

建议报名参与者提前做好如下软硬件配置:
•知识:会用命令行、git 和 Docker;
•提前下载:Docker and Docker compose;
•自备电脑一台。

报名并审核通过后, 将会邀请大家进入工作坊专属答疑群,搞定前序工作,现场专注探索你的实时 AI 场景!

还可参考以下链接:
•Azure OpenAI (海外版) 官方文档:https://learn.microsoft.com/en-us/azure/ai-services/openai/overview
•TEN README 英文:https://github.com/TEN-framework/TEN-Agent
•TEN README 中文:https://github.com/ten-framework/ten-agent/blob/main/docs/readmes/README-CN.md

欢迎报名~
在这里插入图片描述
在这里插入图片描述

相关文章:

工作坊报名|使用 TEN 与 Azure,探索你的多模态交互新场景

GPT-4o Realtime API 发布,语音 AI 技术正在进入一场新的爆发。语音AI技术的实时语音和视觉互动能力将为我们带来更多全新创意和应用场景。 实时音频交互: 允许应用程序实时接收并响应语音和文本输入。自然语音生成: 减少 AI 技术生成的语音…...

学习笔记041——Elastic Search的学习与使用以及SpringBoot整合

文章目录 1、Elastic Search介绍1.1、ES 的数据结构1.2、ES 为什么查询快1.3、CRUD 2、Spring Boot 整合 ES 1、Elastic Search介绍 ‌Elasticsearch‌是一个分布式的、基于RESTful API的搜索和分析引擎,广泛用于大规模数据存储和快速检索。它最初由Shay Banon于20…...

R安装rgdal报错 解决办法

尝试了网上很多办法,不知道哪一步解决了,记录一下所有步骤: 1. 尝试github安装 options(repos c(CRAN "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))install.packages("devtools")library(devtools)devtools::in…...

【智能制造-46】人机工程(工厂自动化)

工作空间设计 设备布局规划 根据人体测量学数据,合理安排自动化设备、生产线和工作区域的布局。例如,考虑工人的操作空间和活动范围,确保他们能够舒适地接近和操作设备。在汽车装配车间,机器人和工人的工作区域应划分明确&#…...

C#笔记(5)

一、winform项目与窗体控件 1、部分类的使用 好处:让自动生成的代码后置,我们编写程序的代码显得更加简洁 特点:在最后编译的时候,仍然编译成一个窗体类。 窗体和控件的基本使用 3、Event事件(委托--》事件&#…...

【软件国产化】| Windows和Linux下文件名后缀是否区分大小写

今天在开发过程中遇到了个软件在Linux系统和Windows系统下功能表现不一致的bug,具体表现为: 插入一张图片(A文件夹中的001.jpg),然后使用“图片替换”功能,用B文件夹中的图片(B文件夹中的001.JP…...

讨论JAVA、JVM与Spring

Q1: 作为一个JAVA开发人员,对于jvm肯定不陌生,但很多人对它不陌生也仅止于概念上,而且对概念也是模糊不清的,但jvm实际是java程序运行在其中的实际存在的环境,对它的理解应该要是具象化的。 我们还是从一项技术产生的…...

【04】MySQL数据库和数据表的基本操作详解与实例

文章目录 一、连接MySQL服务器二、数据库的基本操作2.1数据库的基本操作1. 创建数据库2. 选择数据库3. 删除数据库4.查询所有数据库5.修改数据库的字符集 2.2 数据表的基本操作1. 创建数据表2. 查看数据表结构3. 删除数据表4. 修改数据表5. 插入数据6. 查询数据7. 更新数据8. 删…...

Spring中实现动态数据源切换,基于AbstractRoutingDataSource

背景 在项目开发过程中,我们可能会遇到一个场景:某个类型数据源有多个数据源实例,需要我们按照不同的请求切换到不同数据源去。 而目前绝大多数java应用都是基于Spring框架来开发,我们很多时候相关的数据源连接都是交给了Spring框…...

StarRocks-join优化

1、背景 有两个大表,都是6kw级别上下的,通过SR然后包装了一个接口对外提供查询,当前的问题是,这样大的join查询会导致BE直接宕机。并且这个sql很有代表性,我截图如下: 这个表是个单分区,所以直接…...

js 高亮文本中包含的关键词标红

在开发中&#xff0c;遇到需要将文本中包含的关键字高亮的情况&#xff0c;可以做以下处理。 <div class"title"v-html"highlightKeywords(item.title, state1.tags1.concat(state2.tags2).concat(state3.tags3))"> </div> ...... ...... con…...

DVWA靶场——File Inclusion

File Inclusion&#xff08;文件包含&#xff09;漏洞 指攻击者通过恶意构造输入&#xff0c;利用应用程序错误的文件包含机制&#xff0c;导致程序包含并执行未经授权的本地或远程文件。这类漏洞广泛存在于Web应用程序中&#xff0c;尤其是在那些允许用户提供文件路径或URL的地…...

Android Framework禁止弹出当前VOLTE不可用的提示窗口

文章目录 VoLTE简介VoLTE 的优势 当前VOLTE不可用的弹窗弹窗代码定位屏蔽弹出窗口 VoLTE简介 VoLTE&#xff08;Voice over LTE&#xff09;是一种基于4G LTE网络的语音通话技术。它允许用户在4G网络上进行高质量的语音通话和视频通话&#xff0c;而不需要回落到2G或3G网络。V…...

OceanBase 大数据量导入(obloader)

现需要将源数据库&#xff08;Oracle|MySQL等&#xff09;一些表的海量数据迁移到目标数据库 OceanBase 中&#xff0c;基于常规 jdbc 驱动编码的方式涉及开发工作&#xff0c;性能效率也要看编码的处理机制。 OceanBase 官方提供了的 OceanBase Migration Service (OMS) 数据…...

w058基于web的美发门店管理系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0…...

实时数据开发 | checkpoints监控和调优

监控Checkpoints 监控 checkpoint 行为最简单的方法是通过 UI 的 checkpoint 部分。 监控这两个指标: 算子收到第一个 checkpoint barrier 的时间。当触发 checkpoint 的耗费时间一直很高时&#xff0c;这意味着 checkpoint barrier 需要很长时间才能从 source 到达 operator…...

el-tree的使用及控制全选、反选、获取选中

el-tree的使用及控制全选、反选、获取选中 组件使用获取选中的id全选实现反选实现全部代码 组件使用 引入组件&#xff0c;可以参考官网组件引入参考官网示例写好基础数据结构&#xff0c;不知道怎么转换树形机构的看文章&#xff1a;一维数组转树形 <template><el-…...

机器学习(二十五):决策树算法以及决策树和神经网络的对比

一、决策树集合 单一决策树会对训练数据的变化很敏感。例子&#xff1a;输入十个数据&#xff0c;判断是否是猫。只替换其中一个数据&#xff0c;信息增益最高的分裂特征就发生了改变&#xff0c;决策树就发生了变化。 使用决策树集合可以使算法更加健壮。例子&#xff1a;使用…...

新版布谷直播软件源码开发搭建功能更新明细

即将步入2025年也就是山东布谷科技专注直播系统开发,直播软件源码出售开发搭建等业务第9年,山东布谷科技不断更新直播软件功能&#xff0c;以适应当前新市场环境下的新要求。山东布谷科技始终秉承初心&#xff0c;做一款符合广大客户需求的直播系统软件。支持广大客户提交更多个…...

vue3 reactive响应式实现源码

Vue 3 的 reactive 是基于 JavaScript 的 Proxy 实现的&#xff0c;因此它通过代理机制来拦截对象的操作&#xff0c;从而实现响应式数据的追踪。下面是 Vue 3 的 reactive 源码简化版。 Vue 3 reactive 源码简化版 首先&#xff0c;我们需要了解 reactive 是如何工作的&…...

揭秘League Akari:如何通过LCU API革新英雄联盟游戏体验?

揭秘League Akari&#xff1a;如何通过LCU API革新英雄联盟游戏体验&#xff1f; 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit …...

DeepSeek LintCode 3867 · 范围内的数字计数 public int digitsCount(int d, int low, int high)

LintCode 3867 范围内的数字计数 问题分析 计算在区间 [low, high] 中&#xff0c;数字 d 出现的次数。 核心思想&#xff1a;使用数位DP或前缀和思想 • count(low, high) count(0, high) - count(0, low-1) 方法一&#xff1a;逐位统计法&#xff08;推荐&#xff09;AC pu…...

三步修复Windows安全防护:零基础系统工具恢复指南

三步修复Windows安全防护&#xff1a;零基础系统工具恢复指南 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirrors/wi/wind…...

NaViL-9B图文问答入门必看:纯文本+图像理解双模式快速上手

NaViL-9B图文问答入门必看&#xff1a;纯文本图像理解双模式快速上手 1. 认识NaViL-9B多模态模型 NaViL-9B是一款原生支持多模态交互的大语言模型&#xff0c;由专业研究团队开发。它最大的特点是能同时处理纯文本问答和图片内容理解任务&#xff0c;就像一个同时精通文字和视…...

百度网盘提取码智能获取工具:让资源下载效率提升100倍的秘密武器

百度网盘提取码智能获取工具&#xff1a;让资源下载效率提升100倍的秘密武器 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为获取百度网盘分享链接的提取码而浪费宝贵时间吗&#xff1f;面对"请输入提取码"的…...

保姆级避坑指南:手把手教你搞定CARLA 0.9.11与Autoware的ROS话题转发(附完整代码)

深度解析CARLA与Autoware联合仿真中的ROS话题转发实战 在自动驾驶仿真开发领域&#xff0c;CARLA与Autoware的联合使用已成为研究热点。许多开发者在尝试将两者结合时&#xff0c;往往会在ROS话题转发环节遇到各种"坑"。本文将聚焦这一关键环节&#xff0c;提供一份详…...

Java中高效移除文本文件标点符号的实用指南

本教程详细阐述了在Java中从文本文件中有效删除标点符号的方法。我们将使用Java NIO的Files.lines()结合Streamm API&#xff0c;重点介绍正则表达式p{Punct}强大的功能&#xff0c;以简单、强大的方式实现文本清洁&#xff0c;避免传统硬编码的局限性&#xff0c;从而提高文本…...

Timer-S1 正式发布:首个十亿级时序基础模型,预测性能达到 SOTA

本文约3600字&#xff0c;建议阅读5分钟十亿级规模化的突破&#xff0c;首次将时间序列预测的串行本质&#xff0c;融入模型架构、数据、训练全流程&#xff01;在 AI 全面渗透各行业的背景下&#xff0c;工业企业对时序数据的应用需求已从基础查询计算&#xff0c;升级为设备状…...

老王-十条江湖铁律:比读百本厚黑书更管用

十条江湖铁律 ——比读百本厚黑书更管用“人若不想被算计&#xff0c; 就必须记住这10条—— 不是教你变坏&#xff0c; 而是—— 让你在复杂世界里&#xff0c;活得清醒且安全。”&#x1f3d9;️ 1. 小地方发达&#xff0c;速换圈子“庙小妖风大&#xff0c;池浅王八多。”小…...

HunyuanVideo-Foley入门指南:infer.py命令行参数全量说明与组合技巧

HunyuanVideo-Foley入门指南&#xff1a;infer.py命令行参数全量说明与组合技巧 1. 环境准备与快速部署 HunyuanVideo-Foley是一款强大的视频与音效生成工具&#xff0c;基于RTX 4090D 24GB显存和CUDA 12.4深度优化。在开始使用前&#xff0c;请确保您的硬件配置满足以下要求…...