当前位置: 首页 > news >正文

奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Recognition Through Multi-scale Feature Fusion With Squeeze-and-excitation Blocks”。ICASSP上的成功发表是奇富科技在全球科技舞台上又一次的闪耀,也是对团队科研能力和创新实力的最佳证明。

15d3a4cbb9c7452c9cd5ba29a681cd6c.png 

ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有广泛的学术影响力。本年度将于2024年4月14日至19日在韩国首尔举行会议,主题为“信号处理技术:迈向真正智能的基石”,奇富科技此次被录用的论文研究方向聚焦在语音情感计算,团队提出了一种名为MS-SENet的新型网络结构,通过高效提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息相融合,获得更强的语音情绪表征向量。

情感计算领域是一个涉及计算机科学、心理学和语言学等多学科的交叉研究领域,它的主要目的是通过分析和处理语音信号中的情感信息,使计算机能够识别和理解人类的情感状态。业界主流做法是通过音频、文本等多模态信息来进行情感分类,但奇富科技团队认为人类底层情感特征是相通的,是完全可以跨越具体语种和文本内容。奇富科技团队认为可以从减少提取大量无关紧要的声学特征和针对局部频率和长期时间特征进行融合两方面去提升语音信号的情感表征学习,并基于此提出了MS-SENet框架(图1)。MS-SENet通过使用不同尺寸的卷积核提取多尺度时空特征,并引入压励模块来有效捕捉这些多尺度特征。同时通过跳跃连接和空间丢失层防止过拟合并增加模型深度,进一步提高了情感计算模型的表达能力。

8774aedf82994d7f8785b22ae103eb37.png 

图1 奇富科技自研MS-SENet音频情感计算网络框架

奇富科技团队在论文中评估了包括中科院自动化所语音情感数据集、柏林情感数据库、意大利语数据集、互动情感二元运动捕捉数据库、Surrey音频视觉表达情感数据集以及Ryerson音频视觉情感演讲与歌曲数据集在内的六个不同场景的多语种的数据集。和SOTA(state of the art,是指在特定任务中目前表现最优的方法或模型)相比,MS-SENet将UA和WA提高了1.31%和1.61%,同时MS-SENet在具有更多情感类别和较低数据量的情况下,仍然保持着出色的情感识别能力。

5d076c09ed6a47fcaa316d709de1958b.png 

表1 奇富科技自研MS-SENet与学术界2019~2023年度SOTA在六大评测集上的表现

奇富科技团队还利用t-SNE技术对MS-SENet和SOTA模型(TIM-Net)的表征进行了可视化,从下图可以观察到MS-SENet形成了具有清晰分类边界的独特表征聚类。

b754320c6b0e492994f20dbc7a9f55c6.png 

图2 奇富科技自研MS-SENet与2023年度SOTA(TIM-Net)在SAVEE语料库上的可视化表征图,图(b)各个情绪分类边界明显更清晰

奇富科技的语音情感计算研究不止于理论突破,更是实际应用的成功典范。
在贷后降投诉项目中,异常情绪监测首次被应用在实景业务当中。通过对高风险客群的录音通话进行逐通分析,及时遴选出异常情绪的客户,以便相关人员可以及时介入,实验结果表明模型组投诉率低于对照组4个绝对值百分点。

此外,奇富科技大模型部自研的Orpheus-声学感知系统(Orpheus Acoustics Perceptual System,以下简称Orpheus-APS)中已成功地整合情感计算模块,该系统着重聚焦声学环境、音频内容和说话人三大感知维度,提供了崭新的智能外呼平台交互质量评估视角。例如,在质检场景中,Orpheus-APS不仅具备传统声学检测功能,更以其情感感知能力为亮点。与市面上已有简单的单句维度情感分类不同,Orpheus-APS可以在时间维度绘制连续的完整情绪光谱,更直观呈现说话者在通话过程中情绪状态的连续变化。情绪光谱的绘制精准反馈了坐席在通话过程中的情绪波动和趋势,为质检人员提供了全新的观察角度,也为企业利用好海量通话交互数据提供了全新的工具,是实现业务管理决策、战略规划数智化过程中重要的一步。

10cb11031dfb4c268957781cdb292b98.png 

图3 某贷后坐席的录音情绪光谱图,直观反映坐席在通话过程中的情绪波动过程

此次论文的成功录用,不仅是奇富科技团队的成果,更是中国科技创新的典范。奇富科技在国际顶会上的亮眼表现,将进一步提升中国科技企业的国际声望,为产业升级和技术进步贡献更多力量。

相关文章:

奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Re…...

如何在Android Termux中使用SFTP实现远程传输文件

文章目录 1. 安装openSSH2. 安装cpolar3. 远程SFTP连接配置4. 远程SFTP访问5. 配置固定远程连接地址6、结语 SFTP(SSH File Transfer Protocol)是一种基于SSH(Secure Shell)安全协议的文件传输协议。与FTP协议相比,SFT…...

高频知识汇总 | 【操作系统】面试题汇总(万字长博通俗易懂)

前言 这篇我亲手整理的【操作系统】资料,融入了我个人的理解。当初我在研习八股文时,深感复习时的困扰,网上资料虽多,却过于繁杂,有的甚至冗余。例如,文件管理这部分,在实际面试中很少涉及&…...

【前端框架】NPM概述及使用简介

什么是 NPM npm之于Node,就像pip之于Python,gem之于Ruby,composer之于PHP。 npm是Node官方提供的包管理工具,他已经成了Node包的标准发布平台,用于Node包的发布、传播、依赖控制。npm提供了命令行工具,使你可以方便地下载、安装、升级、删除包,也可以让你作为开发者发布…...

C# LINQ

一、前言 学习心得&#xff1a;C# 入门经典第8版书中的第22章《LINQ》 二、LINQ to XML 我们可以通过LINQ to XML来创造xml文件 如下示例&#xff0c;我们用LINQ to XML来创造。 <Books><CSharp Time"2019"><book>C# 入门经典</book><…...

云原生机器学习平台cube-studio开源项目及代码简要介绍

1. cube-studio介绍 云原生机器学习平台cube-studio介绍&#xff1a;https://juejin.cn/column/7084516480871563272 cube-studio是开源的云原生机器学习平台&#xff0c;目前包含特征平台&#xff0c;支持在/离线特征&#xff1b;数据源管理&#xff0c;支持结构数据和媒体标…...

大小端存储是什么鬼?

以下内容为本人的著作&#xff0c;如需要转载&#xff0c;请声明原文链接 微信公众号「ENG八戒」https://mp.weixin.qq.com/s/htYGddzO2xPl9kDN4lANpQ 大小端存储的划分是为了解决长度大于一个字节的数据类型内容在存储地址上以不同顺序分布的问题。 比如16位的short整形&…...

WEB:探索开源PDF.js技术应用

1、简述 PDF.js 是一个由 Mozilla 开发的开源 JavaScript 库&#xff0c;用于在浏览器中渲染 PDF 文档。它的目标是提供一个纯粹的前端解决方案&#xff0c;摆脱了依赖插件或外部程序的束缚&#xff0c;使得在任何支持 JavaScript 的浏览器中都可以轻松地显示 PDF 文档。 2、…...

数据分析之词云图绘制

试验任务概述&#xff1a;如下为所给CSDN博客信息表&#xff0c;分别汇总了ai, algo, big-data, blockchain, hardware, math, miniprog等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计&#xff0c;绘制词频统计图&#xff0c;并根据词频统计的结果绘制词云图。…...

【赠书第13期】边缘计算系统设计与实践

文章目录 前言 1 硬件架构设计 2 软件框架设计 3 网络结构设计 4 安全性、可扩展性和性能优化 5 推荐图书 6 粉丝福利 前言 边缘计算是一种新兴的计算模式&#xff0c;它将计算资源推向网络边缘&#xff0c;以更好地满足实时性、低延迟和大规模设备连接的需求。边缘计算…...

数据库01_增删改查

1、什么是数据&#xff1f;什么是数据库&#xff1f; 数据&#xff1a;描述事物的符号记录称为数据。数据是数据库中存储的基本对象。数据库&#xff1a;存放数据的仓库&#xff0c;数据库中可以保存文本型数据、二进制数据、多媒体数据等数据 2、数据库的发展 第一阶段&…...

MySQL——进阶篇

二、进阶篇&#x1f6a9; 1. 存储引擎&#x1f346; 1.1 MSQL体系结构 连接层&#xff1a; 连接处理&#xff0c;连接认证&#xff0c;每个客户端的权限 服务层&#xff1a; 绝大部分核心功能&#xff0c;可跨存储引擎 可插拔存储引擎&#xff1a; 需要的时候可以添加或拔掉…...

Python 网络编程之搭建简易服务器和客户端

用Python搭建简易的CS架构并通信 文章目录 用Python搭建简易的CS架构并通信前言一、基本结构二、代码编写1.服务器端2.客户端 三、效果展示总结 前言 本文主要是用Python写一个CS架构的东西&#xff0c;包括服务器和客户端。程序运行后在客户端输入消息&#xff0c;服务器端会…...

往年面试精选题目(前50道)

常用的集合和区别&#xff0c;list和set区别 Map&#xff1a;key-value键值对&#xff0c;常见的有&#xff1a;HashMap、Hashtable、ConcurrentHashMap以及TreeMap等。Map不能包含重复的key&#xff0c;但是可以包含相同的value。 Set&#xff1a;不包含重复元素的集合&#…...

解决服务器Tab键不能补全问题

编辑~/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-keyboard-shortcuts.xml 命令&#xff1a;vim ~/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-keyboard-shortcuts.xml替换&#xff1a;<property name“<Super>Tab” type“string” value“switch_window…...

人工智能 机器学习 深度学习:概念,关系,及区别说明

如果过去几年&#xff0c;您读过科技主题的文章&#xff0c;您可能会遇到一些新词汇&#xff0c;如人工智能&#xff08;Artificial Intelligence&#xff09;、机器学习&#xff08;Machine Learning&#xff09;和深度学习&#xff08;Deep Learning&#xff09;等。这三个词…...

数据库——LAMP的搭建及MySQL基操

1.实验内容及原理 1. 在 Windows 系统中安装 VMWare 虚拟机&#xff0c;在 VMWare 中安装 Ubuntu 系统,并在 Ubuntu 中搭建 LAMP 实验环境。 2. 使用 MySQL 进行一些基本操作&#xff1a; &#xff08;1&#xff09;登录 MySQL&#xff0c;在 MySQL 中创建用户&#xff0c;并对…...

抗原设计与兔单B细胞技术的结合-卡梅德生物

随着生物医学研究的不断深入&#xff0c;抗体疗法作为治疗疾病的有力工具逐渐成为研究的焦点。而兔单B细胞技术作为抗体研究的创新方法&#xff0c;其与抗原设计的有机结合为获取定制抗体打开了崭新的创新之路。本文将深入探讨抗原设计与兔单B细胞技术相互融合的原理、优势&…...

在uniapp中使用背景渐变色与背景图不生效问题

list上有文字详情以及背景图&#xff0c;从背景可以看出是渐变色和 背景图片的结合。 因为使用到渐变色&#xff0c;所以要结合 background-blend-mode 属性来实现与背景图片叠加显示&#xff0c;否则只通过 background: linear-gradient(); background-image: url(); 设置不会…...

Java中XML的解析

1.采用第三方开元工具dom4j完成 使用步骤 1.导包dom4j的jar包 2.add as lib.... 3.创建核心对象, 读取xml得到Document对象 SAXReader sr new SAXReader(); Document doc sr.read(String path); 4.根据Document获取根元素对象 Element root doc.getRootElement(); …...

源码编译实战:定制rpath与interpreter实现高版本glibc程序向下兼容部署

1. 为什么需要高版本glibc程序向下兼容 最近在给客户部署AI推理服务时遇到一个典型问题&#xff1a;开发环境用的是Ubuntu 20.04&#xff08;glibc 2.31&#xff09;&#xff0c;而生产环境是CentOS 7&#xff08;glibc 2.17&#xff09;。直接拷贝编译好的程序运行时&#xff…...

菊水PBZ40可编程电源RS232C通信协议实战指南

1. 认识菊水PBZ40可编程电源 如果你正在实验室里捣鼓自动化测试系统&#xff0c;大概率会遇到需要精确控制电源输出的场景。菊水PBZ40就是这样一款专业选手&#xff0c;它不仅能提供稳定的直流输出&#xff0c;还能模拟各种交流波形信号。我第一次接触这台设备时&#xff0c;就…...

OpenClaw 生态全景图——AI 助理如何改变工作方式

OpenClaw 生态全景图——AI 助理如何改变工作方式摘要&#xff1a;2026 年&#xff0c;AI 助理从"玩具"变成"工具"。本文带你了解 OpenClaw 生态系统的完整布局&#xff0c;看它如何连接微信、飞书、钉钉等主流平台&#xff0c;以及企业和个人如何利用它提…...

本地部署开源直播视频平台 Owncast 并实现外部访问

Owncast 是一款开源的、自托管的直播和视频平台&#xff0c;它允许用户完全掌控自己的直播基础设施、数据和观众互动&#xff0c;避免依赖 Twitch 、YouTube 等大型中心化平台&#xff0c;为内容创作者提供一个独立、去中心化的直播解决方案。本文将详细介绍如何利用 Docker 在…...

HARMONYOS应用实例247:七巧板拼图

14.七巧板拼图 功能:拖拽旋转七巧板组件拼成指定图形,训练几何直觉和面积守恒观念。 核心功能 七巧板组件:包含2个大三角形、1个中三角形、2个小三角形、1个正方形、1个平行四边形 拖拽操作:支持拖拽七巧板组件到目标位置 旋转功能:支持旋转七巧板组件(每次旋转45度) 目…...

变压器差动保护MATLAB/simulink仿真 变压器差动保护仿真➕报告

变压器差动保护MATLAB/simulink仿真 变压器差动保护仿真➕报告第一部分&#xff1a;Simulink 仿真模型搭建指南 以下是变压器差动保护的Simulink模型搭建步骤及核心代码&#xff0c;包含模型参数设置、差动逻辑实现和仿真分析&#xff1a; 一、Simulink模型搭建 打开MATLAB&…...

双目视觉实战:从标定参数到深度图的完整OpenCV实现指南

双目视觉实战&#xff1a;从标定参数到深度图的完整OpenCV实现指南 在计算机视觉领域&#xff0c;双目立体视觉一直是获取三维环境信息的重要技术手段。与激光雷达等主动传感器相比&#xff0c;基于双相机的立体视觉系统具有成本低、数据丰富、易于部署等优势。本文将深入探讨如…...

当I2C总线卡死时我们在debug什么:从复位异常到多设备冲突的故障树分析

当I2C总线卡死时我们在debug什么&#xff1a;从复位异常到多设备冲突的故障树分析 I2C总线作为嵌入式系统中广泛使用的通信协议&#xff0c;其简洁的两线制设计&#xff08;SCL时钟线与SDA数据线&#xff09;背后隐藏着复杂的硬件交互逻辑。当系统突然出现I2C通信失败、设备无响…...

从零开始:在VMware虚拟机中部署Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF进行开发测试

从零开始&#xff1a;在VMware虚拟机中部署Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF进行开发测试 1. 准备工作与环境搭建 在开始之前&#xff0c;我们需要准备好必要的软件和资源。首先确保你的主机系统满足以下要求&#xff1a; 至少16GB内存&#xff08;推荐…...

KEITHLEY 6221+2182A组合在霍尔测量中的5个实战技巧(避坑指南)

KEITHLEY 62212182A组合在霍尔测量中的5个实战技巧&#xff08;避坑指南&#xff09; 霍尔测量作为材料科学研究中的关键手段&#xff0c;对仪器精度和操作细节的要求近乎苛刻。KEITHLEY 6221电流源与2182A纳伏表的组合&#xff0c;凭借其出色的低噪声性能和微电流处理能力&…...