All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。
诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的回答,其水平成为了各OEM座舱差异化竞争的关键要素。
“2024年开始,车载语音助手的核心技术路径,已经慢慢转成大模型了;相对传统技术,大模型的核心优势之一就是理解能力、上下文关联的能力特别强。”云知声联合创始人、副总裁李霄寒表示。
很明显,座舱语音作为座舱娱乐和交互功能的重要入口,与大模型有着极高的契合度。尤其是自2022年底以ChatGPT为代表的大语言模型发布,国内外诸多玩家也在积极探索以大模型为基础的智能体(Agent)。
其中,云知声在2023年5月就发布了自研的山海大模型,交出了在AGI领域的第一张答卷。
彼时,其山海大模型的语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力,及插件扩展、领域增强、企业定制三项行业落地能力已经处于业界前列。
在此基础上,云知声通过快速整合具体业务场景的相关知识与规范,已经打造了医疗病例生成Agent、交通客服Agent、智能座舱Agent等典型的行业Agent应用。
具体到智能座舱领域,云知声依托山海大模型重构了语音识别、语义理解、语音合成的全链路语音方案。基于大模型的理解与生成能力,其方案深度赋能用车、出游、主动关怀、健康、通用聊天等多个细分场景。
而自去年5月中旬,OpenAI推出GPT-4o,凭借突破性的智能交互能力,掀起了新一轮的多模态大模型新浪潮。与此同时,云知声也在突破更深层次的自然语言理解和多模态交互。
同年8月,云知声顺势推出了山海多模态大模型,通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出,带来实时多模态拟人交互体验,开启AGI新范式。
得益于过去几年不断补强的语音技术栈和大模型能力,搭载云知声语音解决方案的车型已经陆续量产,其客户包括吉利、上汽等。
这也意味着,云知声作为国产大模型的一道缩影,已经初步跑通了座舱语音大模型的技术、产品和商业化路径。

展望2025年,座舱语音的竞争焦点在哪里?大模型将如何重塑座舱语音交互?近日,高工智能汽车独家专访云知声联合创始人、副总裁李霄寒,找到了答案。
01
座舱语音加速迈向真人工智能
作为车内使用频率最高的交互方式,座舱语音既To B也To C。
于用户而言,影响其座舱语音使用频率和体验感的因素包括两点:一是使用门槛要足够低,二是语音交互能做到真正的人工智能。
而站在语音供应商的角度,要想做到以上几点,技术层面的衡量标准,一定是“听得清”、“听得懂”并且“答得好”。
其中,“听得清”是整个座舱语音的基建。毕竟所有座舱语音交互功能的实现,前提条件一定是“听得清”。
但要想做好这一点,并非易事,必须做好座舱语音整体硬件结构设计、软件算法等,这非常考验语音技术栈基础能力,包括降噪、回声消除、音区分离等。
这也恰恰是云知声的强项所在。
例如,云知声打造的降噪解决方案,实际降噪后语音信噪比可达20db以上,实现了音区精确分离,可确保车内对话清晰;回声消除后的语音信回比提升达到 35dB以上;降噪后的蓝牙通话方案,MOS分可以达到4.0以上(最高5分)。

值得一提的是,目前云知声在降噪层面的技术逻辑,已经全部基于数据驱动的神经网络实现。在此基础上,其语音唤醒、语音识别等能力也明显更强。
据统计,在端到端唤醒时延数百次测试中,搭载云知声语音技术的语音助理,最快可达220ms以内;离线识别首字上屏速度小于600ms,在线识别首字上屏速度小于700ms。
另外,“听得懂”作为迄今为止语音座舱最大的挑战之一,有望在大模型的加持下,赋能整个座舱语音做到真正的人工智能。
即在语音技术栈基础之上,结合大模型,语音助理可以做到更快的语义响应速度、更准确的意图理解和上下文跨越理解等,是现阶段座舱语音互相角力的重点。
比如,在山海大模型的加持下,云知声的语音助理的语义平均响应时延达300ms,意图理解准确率达95%,可实现复杂上下文跨域理解、语义纠错等。
而在“听得清”和“听得懂”的技术前提下,“答得好”是用户衡量座舱语音智能化程度最重要的指标之一,其关键点在于以语音助理为交互入口,集成更多的服务,包括多媒体播放、实时导航、车控,以及故障灯释义、维修手册等。
“语音助理什么都能听得懂,即便能做到这一点,假如座舱交互提供的服务只有有限的几类,那用户问到第N +1类服务的时候,再聪明的助理也只能说‘对不起不支持’,在用户看来这个助理就是不智能的。”李霄寒介绍道。
因此,在现有的服务能力上,与主机厂合力配齐更多的服务,亦是云知声在2025年的重点规划之一。
02
All in大模型,赋能主机厂座舱语音产品领先
“2025云知声将All in大模型,所有的车载语音技术方案都用大模型来做,旨在通过新的技术路线,带来新的体验和价值,赋能客户的座舱语音产品上市发布时,在行业内是具备领先性的,这是我们的目标。”李霄寒谈到。
不难发现,占领新一轮座舱语音大模型的技术高地,是接下来OEM在智能座舱差异化方面的技术竞争焦点。
毕竟,现阶段的座舱语音交互,大多还是由语音、文本两套大模型系统组成。其整体交互链路和流程,首先由用户发起语音请求,车机麦克风拾音之后,再调用语音增强能力接口,对音频做回声消除、噪音抑制等预处理。
此后,预处理后的音频需进行识别转写,转写后的文本再通过文本大模型进行语义理解,并给出语义理解的结果,输出文本回复再转化为语音回复。
从应用层面来看,这也极大地影响着用户体验。
一方面,人机对话过程由语音转成文字,再做理解并输出结果,在时间上存在一定的延迟。
另外,语音转变成文字后,会丢失较多的信息,比如情绪信息。即用户分别用愤怒和心平气和的态度说同样的话,得到的回复可能是完全一样的,显然与语音助手追求“拟人”相悖。
“只有把语音和文本两个大模型合并,语音助手才能变成真正听得懂人话的助理,尤其是在做意图理解时,不光能理解文字,还能读懂声音里蕴含的情绪等其它信息,并做出差异化的回复,因此2025年语音大模型会成为主流。”李霄寒表示。
而借助山海大模型,云知声在语音识别、语义理解、语音合成等方面,均已采用大模型技术,实现了语境理解、情绪感知、反馈学习等核心交互能力的增强,赋能座舱体验在不断优化与提升。

比如,在语义理解方面,意图理解大模型彻底解决了过往在意图分类、深度语义理解、多轮交互时的人机对话痛点,在影视问答、旅游推荐、娱乐闲聊、用车问答等高频6大领域准确率超过95%,且大模型语义平均响应时间为300ms。
另外,在语音合成方面,语音大模型支持情感化语音合成,用户可以选择自己喜爱的声音和人设,或者专属声音定制语音包,并支持多语种TTS合成,极大地提升了交互趣味性。
“以语音大模型为主的多模态大模型上车,到底要向用户提供哪些有价值的功能?这是值得供应商和OEM深思的问题,因为大模型上车一定要有价值,能够让用户容易使用,并且愿意使用。”李霄寒向高工智能汽车提到。
站在用户和OEM的角度思考座舱语音产品定位,坚定All in大模型的云知声,在业务层面也有了更清晰的规划。
据介绍,一方面云知声将提供完整的语音座舱解决方案,覆盖降噪、唤醒、识别、理解、语音合成,以及各类开发平台,云端、端侧的功能等;另一方面,针对语音座舱设计比较完善的客户,将以组件的方式提供服务,比如降噪、语音合成等可单独提供模块。
另外,云知声还将继续贴近OEM客户,包括驻厂提供更好、更快的座舱语音服务等,旨在成就客户座舱语音产品具备至少三个月的领先性。
决胜2025年座舱语音交互,云知声及其大模型的实际表现值得期待。
相关文章:
All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。 诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的…...
windows git bash 使用zsh 并集成 oh my zsh
参考了 这篇文章 进行配置,记录了自己的踩坑过程,并增加了 zsh-autosuggestions 插件的集成。 主要步骤: 1. git bash 这个就不说了,自己去网上下,windows 使用git时候 命令行基本都有它。 主要也是用它不方便&…...
Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
读书笔记:卓越强迫症强大恐惧症,在亲子家庭、职场关系里尤其是纵向关系模型里,这两种状态很容易无缝衔接。尤其父母对子女、领导对下属,都有望子成龙、强将无弱兵的期望,然而在你的面前,他们才是永远强大的…...
IDEA导入Maven工程不识别pom.xml
0 现象 把阿里 sentinel 项目下载本地后,IDEA 中却没显示 maven 工具栏。 1 右键Maven Projects 点击IDEA右侧边栏的Maven Projects,再点击: 在出现的选择框中选择指定的未被识别的pom.xml即可: 2 Add as maven project 右键p…...
AT8870单通道直流电机驱动芯片
AT8870单通道直流电机驱动芯片 典型应用原理图 描述 AT8870是一款刷式直流电机驱动器,适用于打印机、电器、工业设备以及其他小型机器。两个逻辑输入控制H桥驱动器,该驱动器由四个N-MOS组成,能够以高达3.6A的峰值电流双向控制电机。利用电流…...
计算机视觉算法实战——实体物体跟踪
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域介绍✨✨ 实体物体跟踪(Object Tracking)是计算机视觉领域中的一个重要研究方向&#x…...
网络协议如何确保数据的安全传输?
网络协议作为计算机网络通信的基石,其设计不仅旨在实现数据的有效传输,更在于确保数据在传输过程中的安全性。对于网络协议如何保障数据安全传输,是很多企业和网络IT部门的重点,本文将从多方面概述相关方法。 加密与解密机制 1. …...
在elasticsearch中,document数据的写入流程如何?
本文将为您介绍文档内容是如何写入ES集群中。 数据写入ES集群的流程图如下 流程介绍 用户携带数据发起POST请求指向集群9200端口。9200端口将数据写入请求发给主分片。主分片会对数据进行分片计算分发给具体分片。(计算方式:hash % primary_number_sha…...
【优选算法】6----查找总价格为目标值的两个商品
这道题相对于前寄到算法题较为容易~ 同样也是使用了双指针的算法哦~ ----------------------------------------begin-------------------------------------- 题目解析: 题目也是很简单地一句话,但是意图还是很明确~ 讲解算法原理: 同样的&…...
99.8 金融难点通俗解释:净资产收益率(ROE)
目录 0. 承前1. 简述2. 比喻:养母鸡赚钱2.1 第一步:投资母鸡2.2 第二步:母鸡下蛋2.3 第三步:计算赚钱2.4 第四步:计算ROE 3. 生活中的例子3.1 好的ROE3.2 一般的ROE3.3 差的ROE 4. 小朋友要注意4.1 ROE高不一定好4.2 R…...
Java设计模式—观察者模式
观察者模式 目录 观察者模式1、什么是观察者模式?2、观察者模式优缺点及注意事项?3、观察者模式实现?4、手写线程安全的观察者模式? 1、什么是观察者模式? - 实例:现实生活中很多事物都是依赖存在的&#x…...
人工智能在数字化转型中的角色:从数据分析到智能决策
引言 在数字化转型浪潮中,人工智能(AI)正迅速崛起,成为推动企业创新和变革的关键力量。面对日益复杂的市场环境和激烈的行业竞争,企业亟需借助技术手段提高运营效率、优化决策过程,并增强市场竞争力。而AI…...
论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation
Multi-view Classification Using Hybrid Fusion and Mutual Distillation Intro 多视角问题可以分为两类: Structured。固定视角,或预先定义的视角的问题。unstructured。 本文的三大contributions: 引入了混合的多视角融合策略。使用了…...
AIGC浪潮下,图文内容社区数据指标体系如何构建?
文章目录 01 案例:以图文内容社区为例实践数据指标体构建02 4个步骤实现数据指标体系构建1. 明确业务目标,梳理北极星指标2. 梳理业务流程,明确过程指标3. 指标下钻分级,构建多层级数据指标体系4. 添加分析维度,构建完…...
”彩色的验证码,使用pytesseract识别出来的验证码内容一直是空“的解决办法
问题:彩色的验证码,使用pytesseract识别出来的验证码内容一直是空字符串 原因:pytesseract只识别黑色部分的内容 解决办法:先把彩色图片精确转换成黑白图片。再将黑白图片进行反相,将验证码部分的内容变成黑色&#…...
前端Vue2项目使用md编辑器
项目中有一个需求,要在前端给用户展示内容,内容有 AI 生成的,返回来的是 md 格式,所以需要给用户展示 md 格式,并且管理端也可以编辑这个 md 格式的文档。 使用组件库 v-md-editor。 https://code-farmer-i.github.i…...
OpenVela 架构剖析:从内核到应用
目录 一、总体架构概述 二、 内核层 2.1. OpenVela架构的内核基础 2.2. 内核层的主要职责 2.3. OpenVela对NuttX的扩展与优化 三、系统服务层 2.1. 进程管理 2.2. 内存管理 2.3. 文件系统 2.4. 网络通信 四、框架层 4.1. 模块化设计 4.2. API接口 4.3. 组件和服务…...
vue视频流播放,支持多种视频格式,如rmvb、mkv
先将视频转码为ts ffmpeg -i C:\test\3.rmvb -codec: copy -start_number 0 -hls_time 10 -hls_list_size 0 -f hls C:\test\a\output.m3u8 后端配置接口 import org.springframework.core.io.Resource; import org.springframework.core.io.UrlResource; import org.spring…...
记一个Timestamp时区问题的坑
resultSet.getTimestamp(“kpi_collect_time”)查出来的Timestamp居然是带时区的, 如果该Timestamp不是UTC时区的,Timestamp.toInstant().atZone(ZoneId.of(“UTC”))会把Timestamp转成UTC时区 使用Timestamp.toLocalDateTime()可以直接把时区信息抹除 …...
新年好(Dijkstra+dfs/全排列)
1135. 新年好 - AcWing题库 思路: 1.先预处理出1,a,b,c,d,e到其他点的单源最短路,也就是进行6次Dijkstra 2.计算以1为起点的这6个数的全排列,哪种排列方式所得距离最小,也可以使用dfs 1.Dijkstradfs #define int long longusing …...
SpringBoot-17-MyBatis动态SQL标签之常用标签
文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...
【网络】每天掌握一个Linux命令 - iftop
在Linux系统中,iftop是网络管理的得力助手,能实时监控网络流量、连接情况等,帮助排查网络异常。接下来从多方面详细介绍它。 目录 【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...
模型参数、模型存储精度、参数与显存
模型参数量衡量单位 M:百万(Million) B:十亿(Billion) 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的,但是一个参数所表示多少字节不一定,需要看这个参数以什么…...
《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...
【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
Leetcode 3577. Count the Number of Computer Unlocking Permutations
Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接:3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯,要想要能够将所有的电脑解锁&#x…...
ESP32读取DHT11温湿度数据
芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...
转转集团旗下首家二手多品类循环仓店“超级转转”开业
6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...
相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...
leetcodeSQL解题:3564. 季节性销售分析
leetcodeSQL解题:3564. 季节性销售分析 题目: 表:sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...
