报名 | IEEE ICME 2025 音频编码器能力挑战赛正式开启
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。
IEEE ICME 2025 会议将于今年7月在法国南特举办,聚焦人工智能驱动的多媒体技术,涵盖图像与视频处理、多媒体分析与生成、社交媒体分析等AI相关主题。本挑战赛依托于会议平台,旨在评估音频编码器在丰富的多样性任务中的表征能力。届时,我们将在会议现场举办线下workshop,邀请优秀参赛队伍做技术报告。

挑战赛受 HEAR benchmark 启发,引入了多项增强,包括多样化的任务集、面向真实世界的应用、微调和 zero-shot 评估相结合,以及一个新的高效的开源评估系统。参赛者需提交输入为波形、输出为连续嵌入向量的音频编码器,我们将采用带参数和无参数两种评估方法,在语音、环境声音和音乐等多个任务上衡量编码器的性能。
挑战赛不限制模型尺寸和训练数据规模,并且允许基于任何公开的预训练模型,只需最终模型能够在 Google Colab 上推理、训练数据中不包含指定测试集。
挑战赛介绍
1.1 数据集
和大多数挑战赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。
参赛者可以使用任何数据训练,包括在网络上抓取的数据,但要满足以下条件:
• 所有训练数据必须是可公开访问的
• 不得包含表 1 中的数据和基于表 1 数据的派生数据
基于预训练模型训练,比如微调或蒸馏,是允许的,但要确保所基于的模型的训练数据不包含表 1 数据。
表1:测试数据集
表中的“Hidden”列表示该数据集对参赛者隐藏。主办方可能只选择表 1 中的一部分作为评估数据集。

1.2 赛道设置
我们设置了两个赛道,从不同视角评估预训练音频编码器的性能。赛道 A 关注预训练模型在特定任务上的适配性与有效性,而赛道 B 则评估音频表征的内在能力,不做任何微调,评价嵌入表征的内在能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估。
赛道 A:基于任务数据的线性微调
使用参赛者提供的编码器,通过预定义的超参数外接一个任务相关的线性层。该方法评估模型通过一个额外的线性层适配到特定任务的能力,同时不改变原始模型的参数。
赛道 B:无参数评估
直接进行 K 近邻分类(K-NN),不做训练。虽然这种方法在实际应用中可能无法达到最佳性能,但它提供了对声音表征内在能力测试。
1.3 基线
我们提供了四个公开的音频编码器的测试结果作为基线,供参赛者参考。参赛者允许利用任何已有的预训练模型辅助开发自己的模型,包括这些基线模型,只要该模型的训练数据不在表 1 内。
表2:赛道 A 基线

Weighted Average 是按照测试集尺寸对分数做的加权平均。
表3:赛道 B 基线

报名参赛
2.1 时间节点
-
2025 年 2 月 7 日:挑战赛启动
-
2025 年 4 月 1 日:报名截止
-
2025 年 4 月 30 日:提交截止
-
2025 年 5 月 27 日:结果公布
-
2025 年 7 月初:workshop 展示
2.2 如何报名
2025 年 4 月 1 日前,登陆报名(网络环境需能访问 Google)https://forms.gle/VGgRQdPLs9f72UM8A
注意:并不需要等到 4 月 1 日才开始参赛,现在就可以开始训练你的声音编码器。
2.3 提交方式
-
从 GitHub 仓库 克隆音频编码器模板代码。
GitHub - jimbozhang/xares-template: Template for creating audio encoders compatible with X-ARES
-
按照仓库中
README.md的说明实现自己的音频编码器。并按照说明,通过仓库中提供的audio_encoder_checker.py的检查。 -
在 2025 年 4 月 30 日 提交截止日期之前,将以下文件通过邮件发送至 2025icme-aecc@dataoceanai.com:
○ 包含完整代码仓库的 ZIP 文件
○ 一份不超过 6 页的技术报告(PDF格式)
-
预训练模型的权重既可以包含在 ZIP 文件中,也可以在运行时从外部来源(例如 Hugging Face)自动下载。如果选择后者,请在编码器实现中加入自动下载的机制。尽管对模型大小没有限制,但提交的模型必须能够在 Google Colab T4 环境中成功运行推理,该运行环境配备了 16 GB NVIDIA Tesla T4 GPU。
更多详情
-
有关挑战赛的详细说明,请参阅挑战赛网站和 ICME 2025 Audio Encoder Capability Challenge 论文
○ 挑战赛网站:The IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge | ICME2025-Audio-Encoder-Challenge
○ 论文网址:[2501.15302] The ICME 2025 Audio Encoder Capability Challenge
-
挑战赛相关问题,请发送邮件至 2025icme-aecc@dataoceanai.com 进行咨询,也可直接联系挑战赛组织者
○ 小米集团:张俊博(zhangjunbo1@xiaomi.com)
○ 萨里大学:王文武(w.wang@surrey.ac.uk)
○ 海天瑞声:Helen Wang(wangxiaoman@dataoceanai.com)
相关文章:
报名 | IEEE ICME 2025 音频编码器能力挑战赛正式开启
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。 …...
fputs的概念和使用案例
fputs 是 C 语言中用于向文件写入字符串的标准库函数。它与 puts 类似,但不会自动添加换行符,且支持向任意文件流(如磁盘文件、标准输出等)写入数据。 概念解析 函数原型:int fputs(const char *str, FILE *stream); …...
ASP.NET Core标识框架Identity
目录 Authentication与Authorization 标识框架(Identity) Identity框架的使用 初始化 自定义属性 案例一:添加用户、角色 案例二:检查登录用户信息 案例三:实现密码的重置 步骤 Authentication与Authorizatio…...
PFAS(全氟烷基和多氟烷基物质)测试流程详细介绍
PFAS(全氟烷基和多氟烷基物质)测试详细介绍 什么是PFAS? PFAS是(Per-and polyfluoroalkyl substances)的简称,中文名:全氟烷基和多氟烷基物质,是一系列合成有机氟化物的总称,是指至少含有一个…...
宝塔面板端口转发其它端口至MySQL的3306
最近需要把服务器的MySQL服务开放给外网,但又希望公开给所有人。也不想用默认的3306端口。同时也不想改变MySQL的默认端口。 这时候最好的办法就是用一个不常用的端口来转发至3306上去。例如使用49306至3306,外网通过49306来访问,内网依然使用…...
inquirer介绍及配合lerna在Vue中使用示例
目录 安装基本用法使用多个提示框动态选择(动态选项)表单式输入配合lerna在Vue中使用示例 Inquirer 是一个用于创建交互式命令行工具的 Node.js 库,常用于收集用户输入。它提供了多种类型的提示框,可以用于创建交互式应用程序&…...
AI商业化:如何包装技术并找到客户需求?
AI商业化:如何包装技术并找到客户需求? 适用人群:对人工智能技术有一定沉淀,正在探索技术变现和商业模式创新的创业者、技术团队以及企业管理者。同时也适合对 AI 产品包装、市场调研与用户调研感兴趣的从业人员。 一、引言 在过去几年里,从 GPT、Transformer 到 DeepSee…...
基于MODIS/Landsat/Sentinel/国产卫星遥感数据与DSSAT作物模型同化的作物产量估算
基于过程的作物生长模拟模型DSSAT是现代农业系统研究的有力工具,可以定量描述作物生长发育和产量形成过程及其与气候因子、土壤环境、品种类型和技术措施之间的关系,为不同条件下作物生长发育及产量预测、栽培管理、环境评价以及未来气候变化评估等提供了…...
OpenAI 宣布免费开放 ChatGPT 搜索,无需注册
在科技飞速发展的今天,人工智能领域的每一次突破都犹如一颗重磅炸弹,震撼着整个世界。北京时间 2025 年 2 月 6 日凌晨,OpenAI 宣布向所有用户开放 ChatGPT 搜索功能,且无需注册,这一消息瞬间引发了全球范围内的广泛关…...
如何打开vscode系统用户全局配置的settings.json
📌 settings.json 的作用 settings.json 是 Visual Studio Code(VS Code) 的用户配置文件,它存储了 编辑器的个性化设置,包括界面布局、代码格式化、扩展插件、快捷键等,是用户全局配置(影响所有…...
DeepSeek-V3本地Docker容器化部署
1. 安装Docker 确保已安装Docker Desktop for Mac: 下载并安装 Docker Desktop。 安装完成后,启动Docker Desktop。 验证安装: docker --version docker-compose --version 2. 克隆DeepSeek-V3仓库 git clone https://github.com/deeps…...
【Leetcode 每日一题】47. 全排列 II
问题背景 给定一个可包含重复数字的序列 n u m s nums nums,按任意顺序 返回所有不重复的全排列。 数据约束 1 ≤ n u m s . l e n g t h ≤ 8 1 \le nums.length \le 8 1≤nums.length≤8 − 10 ≤ n u m s [ i ] ≤ 10 -10 \le nums[i] \le 10 −10≤nums[i]≤…...
【Uniapp-Vue3】从uniCloud中获取数据
需要先获取数据库对象: let db uniCloud.database(); 获取数据库中数据的方法: db.collection("数据表名称").get(); 所以就可以得到下面的这个模板: let 函数名 async () > { let res await db.collection("数据表名称…...
【重生之学习C语言----杨辉三角篇】
目录 编辑 --------------------------------------begin---------------------------------------- 一、什么是杨辉三角? 二、问题分析 三、算法设计 使用二维数组存储杨辉三角: 递推关系: 格式化输出: 四、代码实现 完…...
天童教育:帮助孩子建立稳定的自信心
不少家长发现,自己家孩子不知道从什么时候开始,不再自信了。有些孩子在面对挑战时总是畏缩不前,不敢尝试新事物;在众人面前发言时,声音微弱,眼神闪躲。昆明天童教育认为,这些表现往往是孩子自信…...
LabVIEW自定义测量参数怎么设置?
以下通过一个温度采集案例,说明在 LabVIEW 中设置自定义测量参数的具体方法: 案例背景 假设使用 NI USB-6009 数据采集卡 和 热电偶传感器 监测温度,需自定义以下参数: 采样率:1 kHz 输入量程:0~10 V&a…...
Vim的基础命令
移动光标 H(左) J(上) K(下) L(右) $ 表示移动到光标所在行的行尾, ^ 表示移动到光标所在行的行首的第一个非空白字符。 0 表示移动到光标所在行的行首。 W 光标向前跳转一个单词 w光标向前跳转一个单词 B光标向后跳转一个单词 b光标向后跳转一个单词 G 移动光标到…...
SpringCloud详细讲解
学习目标 微服务框架SpringCloud的核心组件分布式与集群Spring Cloud 优缺点 微服务框架 微服务框架是将某个应用程序开发划分为多个小型服务独立进行业务开发的一种架构模式。以下是对微服务框架的详细介绍: 一、定义与特点 定义:微服务框架围绕业务…...
使用 OpenGL ES 在 iOS 上渲染一个四边形:从基础到实现
使用 OpenGL ES 在 iOS 上渲染一个四边形:从基础到实现 在 iOS 开发中,OpenGL ES 是一个强大的工具,用于实现高性能的 2D 和 3D 图形渲染。本文将详细分析一段完整的代码,展示如何使用 OpenGL ES 在 iOS 上渲染一个简单的四边形。…...
98.2 AI量化开发:基于DeepSeek打造个人专属金融消息面-AI量化分析师(理论+全套Python代码)
目录 0. 承前1. 金融工程结构图2. Why is DeepSeek3. 项目实现代码3.1 导入python库3.2 参数设置3.3 获取数据3.4 数据处理3.5 AI人设提示词3.6 Messages构建3.7 AI Agent3.8 response格式处理3.9 汇总函数3.10 运行案例 4. 总结4.1 系统优点4.2 系统缺点4.3 可提升方向 0. 承前…...
复制粘贴小工具——Ditto
在日常工作中,复制粘贴是常见的操作,但Windows系统自带的剪贴板功能较为有限,只能保存最近一次的复制记录,这对于需要频繁复制粘贴的用户来说不太方便。今天,我们介绍一款开源、免费且功能强大的剪贴板增强工具——Dit…...
中国人名汉语拼音字母拼写规则
中国人名汉语拼音字母拼写规则 1. Lv and Lyu2. 中国人名汉语拼音字母拼写规则References 1. Lv and Lyu LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding https://arxiv.org/abs/2308.14508 2. 中国人名汉语拼音字母拼写规则 http://www.moe.g…...
MAC OS安装Homebrew
文章目录 1.下载Homebrew2.完成安装3.验证安装4.更新 Homebrew作为一个包管理器,提供了一种简便的方式来安装、更新和卸载各种命令行工具和应用程序。相比于手动下载和编译源代码,或者从不同的网站下载安装包,使用Homebrew可以显著减少这些操…...
计算机组成原理——存储系统(四)
当晨曦的第一缕光线划破夜空,那是宇宙给奋斗者的信号——光明属于那些在黑暗中依旧寻找希望的人。在这条通往梦想的道路上,每一步都充满挑战,但正是这些挑战定义了你的坚韧与不屈。不要满足于现状,因为你的潜力远超想象࿱…...
飞算JavaAI:开辟 AI + 行业趋势的编程新范式
在当今数字化浪潮汹涌澎湃的时代,科技的快速发展正以前所未有的速度重塑着各个行业的面貌。人工智能(AI)作为其中最具变革性的力量之一,已经深入渗透到众多领域,从金融、医疗到制造业、教育等,无一不在经历…...
Axure PR 9 动效 设计交互
大家好,我是大明同学。 这期内容,我们来用Axure制作一组动效。 动效 创建动效元件 1.打开一个新的 RP 文件并在画布上打开 Page 1。 2.选中画布,将画布填充颜色设置为蓝色(#0052D9)。 3.在元件库中拖出一个圆形元件,选中矩形元件&…...
DeepSeek 本地部署
DeepSeek 本地部署 一、引言二、为什么选择本地部署 DeepSeek?三、具体步骤1.下载Ollama并安装(Ollama 提供 API 支持)2. 部署 deepseek-r12.下载Chatbox并配置为本地DeepSeek (Chatbox 提供 UI 界面) 一、引言 近期&…...
langchain教程-3.OutputParser/输出解析
前言 该系列教程的代码: https://github.com/shar-pen/Langchain-MiniTutorial 我主要参考 langchain 官方教程, 有选择性的记录了一下学习内容 这是教程清单 1.初试langchain2.prompt3.OutputParser/输出解析4.model/vllm模型部署和langchain调用5.DocumentLoader/多种文档…...
JavaScript系列(62)--实时通信系统实现详解
JavaScript实时通信系统实现详解 🔄 今天,让我们深入探讨JavaScript的实时通信系统实现。实时通信是现代Web应用中不可或缺的一部分,它能够提供即时的数据交互和更好的用户体验。 WebSocket通信基础 🌟 💡 小知识&am…...
网络工程师 (20)计算机网络的概念
一、定义 计算机网络是指将地理位置不同、具有独立功能的多台计算机及其外部设备,通过通信线路及通信设备连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现信息传递和资源共享的计算机通信系统。 二、组成 资源子网&…...
