All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。
诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的回答,其水平成为了各OEM座舱差异化竞争的关键要素。
“2024年开始,车载语音助手的核心技术路径,已经慢慢转成大模型了;相对传统技术,大模型的核心优势之一就是理解能力、上下文关联的能力特别强。”云知声联合创始人、副总裁李霄寒表示。
很明显,座舱语音作为座舱娱乐和交互功能的重要入口,与大模型有着极高的契合度。尤其是自2022年底以ChatGPT为代表的大语言模型发布,国内外诸多玩家也在积极探索以大模型为基础的智能体(Agent)。
其中,云知声在2023年5月就发布了自研的山海大模型,交出了在AGI领域的第一张答卷。
彼时,其山海大模型的语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力,及插件扩展、领域增强、企业定制三项行业落地能力已经处于业界前列。
在此基础上,云知声通过快速整合具体业务场景的相关知识与规范,已经打造了医疗病例生成Agent、交通客服Agent、智能座舱Agent等典型的行业Agent应用。
具体到智能座舱领域,云知声依托山海大模型重构了语音识别、语义理解、语音合成的全链路语音方案。基于大模型的理解与生成能力,其方案深度赋能用车、出游、主动关怀、健康、通用聊天等多个细分场景。
而自去年5月中旬,OpenAI推出GPT-4o,凭借突破性的智能交互能力,掀起了新一轮的多模态大模型新浪潮。与此同时,云知声也在突破更深层次的自然语言理解和多模态交互。
同年8月,云知声顺势推出了山海多模态大模型,通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出,带来实时多模态拟人交互体验,开启AGI新范式。
得益于过去几年不断补强的语音技术栈和大模型能力,搭载云知声语音解决方案的车型已经陆续量产,其客户包括吉利、上汽等。
这也意味着,云知声作为国产大模型的一道缩影,已经初步跑通了座舱语音大模型的技术、产品和商业化路径。
展望2025年,座舱语音的竞争焦点在哪里?大模型将如何重塑座舱语音交互?近日,高工智能汽车独家专访云知声联合创始人、副总裁李霄寒,找到了答案。
01
座舱语音加速迈向真人工智能
作为车内使用频率最高的交互方式,座舱语音既To B也To C。
于用户而言,影响其座舱语音使用频率和体验感的因素包括两点:一是使用门槛要足够低,二是语音交互能做到真正的人工智能。
而站在语音供应商的角度,要想做到以上几点,技术层面的衡量标准,一定是“听得清”、“听得懂”并且“答得好”。
其中,“听得清”是整个座舱语音的基建。毕竟所有座舱语音交互功能的实现,前提条件一定是“听得清”。
但要想做好这一点,并非易事,必须做好座舱语音整体硬件结构设计、软件算法等,这非常考验语音技术栈基础能力,包括降噪、回声消除、音区分离等。
这也恰恰是云知声的强项所在。
例如,云知声打造的降噪解决方案,实际降噪后语音信噪比可达20db以上,实现了音区精确分离,可确保车内对话清晰;回声消除后的语音信回比提升达到 35dB以上;降噪后的蓝牙通话方案,MOS分可以达到4.0以上(最高5分)。
值得一提的是,目前云知声在降噪层面的技术逻辑,已经全部基于数据驱动的神经网络实现。在此基础上,其语音唤醒、语音识别等能力也明显更强。
据统计,在端到端唤醒时延数百次测试中,搭载云知声语音技术的语音助理,最快可达220ms以内;离线识别首字上屏速度小于600ms,在线识别首字上屏速度小于700ms。
另外,“听得懂”作为迄今为止语音座舱最大的挑战之一,有望在大模型的加持下,赋能整个座舱语音做到真正的人工智能。
即在语音技术栈基础之上,结合大模型,语音助理可以做到更快的语义响应速度、更准确的意图理解和上下文跨越理解等,是现阶段座舱语音互相角力的重点。
比如,在山海大模型的加持下,云知声的语音助理的语义平均响应时延达300ms,意图理解准确率达95%,可实现复杂上下文跨域理解、语义纠错等。
而在“听得清”和“听得懂”的技术前提下,“答得好”是用户衡量座舱语音智能化程度最重要的指标之一,其关键点在于以语音助理为交互入口,集成更多的服务,包括多媒体播放、实时导航、车控,以及故障灯释义、维修手册等。
“语音助理什么都能听得懂,即便能做到这一点,假如座舱交互提供的服务只有有限的几类,那用户问到第N +1类服务的时候,再聪明的助理也只能说‘对不起不支持’,在用户看来这个助理就是不智能的。”李霄寒介绍道。
因此,在现有的服务能力上,与主机厂合力配齐更多的服务,亦是云知声在2025年的重点规划之一。
02
All in大模型,赋能主机厂座舱语音产品领先
“2025云知声将All in大模型,所有的车载语音技术方案都用大模型来做,旨在通过新的技术路线,带来新的体验和价值,赋能客户的座舱语音产品上市发布时,在行业内是具备领先性的,这是我们的目标。”李霄寒谈到。
不难发现,占领新一轮座舱语音大模型的技术高地,是接下来OEM在智能座舱差异化方面的技术竞争焦点。
毕竟,现阶段的座舱语音交互,大多还是由语音、文本两套大模型系统组成。其整体交互链路和流程,首先由用户发起语音请求,车机麦克风拾音之后,再调用语音增强能力接口,对音频做回声消除、噪音抑制等预处理。
此后,预处理后的音频需进行识别转写,转写后的文本再通过文本大模型进行语义理解,并给出语义理解的结果,输出文本回复再转化为语音回复。
从应用层面来看,这也极大地影响着用户体验。
一方面,人机对话过程由语音转成文字,再做理解并输出结果,在时间上存在一定的延迟。
另外,语音转变成文字后,会丢失较多的信息,比如情绪信息。即用户分别用愤怒和心平气和的态度说同样的话,得到的回复可能是完全一样的,显然与语音助手追求“拟人”相悖。
“只有把语音和文本两个大模型合并,语音助手才能变成真正听得懂人话的助理,尤其是在做意图理解时,不光能理解文字,还能读懂声音里蕴含的情绪等其它信息,并做出差异化的回复,因此2025年语音大模型会成为主流。”李霄寒表示。
而借助山海大模型,云知声在语音识别、语义理解、语音合成等方面,均已采用大模型技术,实现了语境理解、情绪感知、反馈学习等核心交互能力的增强,赋能座舱体验在不断优化与提升。
比如,在语义理解方面,意图理解大模型彻底解决了过往在意图分类、深度语义理解、多轮交互时的人机对话痛点,在影视问答、旅游推荐、娱乐闲聊、用车问答等高频6大领域准确率超过95%,且大模型语义平均响应时间为300ms。
另外,在语音合成方面,语音大模型支持情感化语音合成,用户可以选择自己喜爱的声音和人设,或者专属声音定制语音包,并支持多语种TTS合成,极大地提升了交互趣味性。
“以语音大模型为主的多模态大模型上车,到底要向用户提供哪些有价值的功能?这是值得供应商和OEM深思的问题,因为大模型上车一定要有价值,能够让用户容易使用,并且愿意使用。”李霄寒向高工智能汽车提到。
站在用户和OEM的角度思考座舱语音产品定位,坚定All in大模型的云知声,在业务层面也有了更清晰的规划。
据介绍,一方面云知声将提供完整的语音座舱解决方案,覆盖降噪、唤醒、识别、理解、语音合成,以及各类开发平台,云端、端侧的功能等;另一方面,针对语音座舱设计比较完善的客户,将以组件的方式提供服务,比如降噪、语音合成等可单独提供模块。
另外,云知声还将继续贴近OEM客户,包括驻厂提供更好、更快的座舱语音服务等,旨在成就客户座舱语音产品具备至少三个月的领先性。
决胜2025年座舱语音交互,云知声及其大模型的实际表现值得期待。
相关文章:

All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。 诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的…...

windows git bash 使用zsh 并集成 oh my zsh
参考了 这篇文章 进行配置,记录了自己的踩坑过程,并增加了 zsh-autosuggestions 插件的集成。 主要步骤: 1. git bash 这个就不说了,自己去网上下,windows 使用git时候 命令行基本都有它。 主要也是用它不方便&…...

Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
读书笔记:卓越强迫症强大恐惧症,在亲子家庭、职场关系里尤其是纵向关系模型里,这两种状态很容易无缝衔接。尤其父母对子女、领导对下属,都有望子成龙、强将无弱兵的期望,然而在你的面前,他们才是永远强大的…...

IDEA导入Maven工程不识别pom.xml
0 现象 把阿里 sentinel 项目下载本地后,IDEA 中却没显示 maven 工具栏。 1 右键Maven Projects 点击IDEA右侧边栏的Maven Projects,再点击: 在出现的选择框中选择指定的未被识别的pom.xml即可: 2 Add as maven project 右键p…...

AT8870单通道直流电机驱动芯片
AT8870单通道直流电机驱动芯片 典型应用原理图 描述 AT8870是一款刷式直流电机驱动器,适用于打印机、电器、工业设备以及其他小型机器。两个逻辑输入控制H桥驱动器,该驱动器由四个N-MOS组成,能够以高达3.6A的峰值电流双向控制电机。利用电流…...

计算机视觉算法实战——实体物体跟踪
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域介绍✨✨ 实体物体跟踪(Object Tracking)是计算机视觉领域中的一个重要研究方向&#x…...
网络协议如何确保数据的安全传输?
网络协议作为计算机网络通信的基石,其设计不仅旨在实现数据的有效传输,更在于确保数据在传输过程中的安全性。对于网络协议如何保障数据安全传输,是很多企业和网络IT部门的重点,本文将从多方面概述相关方法。 加密与解密机制 1. …...

在elasticsearch中,document数据的写入流程如何?
本文将为您介绍文档内容是如何写入ES集群中。 数据写入ES集群的流程图如下 流程介绍 用户携带数据发起POST请求指向集群9200端口。9200端口将数据写入请求发给主分片。主分片会对数据进行分片计算分发给具体分片。(计算方式:hash % primary_number_sha…...

【优选算法】6----查找总价格为目标值的两个商品
这道题相对于前寄到算法题较为容易~ 同样也是使用了双指针的算法哦~ ----------------------------------------begin-------------------------------------- 题目解析: 题目也是很简单地一句话,但是意图还是很明确~ 讲解算法原理: 同样的&…...
99.8 金融难点通俗解释:净资产收益率(ROE)
目录 0. 承前1. 简述2. 比喻:养母鸡赚钱2.1 第一步:投资母鸡2.2 第二步:母鸡下蛋2.3 第三步:计算赚钱2.4 第四步:计算ROE 3. 生活中的例子3.1 好的ROE3.2 一般的ROE3.3 差的ROE 4. 小朋友要注意4.1 ROE高不一定好4.2 R…...

Java设计模式—观察者模式
观察者模式 目录 观察者模式1、什么是观察者模式?2、观察者模式优缺点及注意事项?3、观察者模式实现?4、手写线程安全的观察者模式? 1、什么是观察者模式? - 实例:现实生活中很多事物都是依赖存在的&#x…...

人工智能在数字化转型中的角色:从数据分析到智能决策
引言 在数字化转型浪潮中,人工智能(AI)正迅速崛起,成为推动企业创新和变革的关键力量。面对日益复杂的市场环境和激烈的行业竞争,企业亟需借助技术手段提高运营效率、优化决策过程,并增强市场竞争力。而AI…...

论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation
Multi-view Classification Using Hybrid Fusion and Mutual Distillation Intro 多视角问题可以分为两类: Structured。固定视角,或预先定义的视角的问题。unstructured。 本文的三大contributions: 引入了混合的多视角融合策略。使用了…...

AIGC浪潮下,图文内容社区数据指标体系如何构建?
文章目录 01 案例:以图文内容社区为例实践数据指标体构建02 4个步骤实现数据指标体系构建1. 明确业务目标,梳理北极星指标2. 梳理业务流程,明确过程指标3. 指标下钻分级,构建多层级数据指标体系4. 添加分析维度,构建完…...
”彩色的验证码,使用pytesseract识别出来的验证码内容一直是空“的解决办法
问题:彩色的验证码,使用pytesseract识别出来的验证码内容一直是空字符串 原因:pytesseract只识别黑色部分的内容 解决办法:先把彩色图片精确转换成黑白图片。再将黑白图片进行反相,将验证码部分的内容变成黑色&#…...

前端Vue2项目使用md编辑器
项目中有一个需求,要在前端给用户展示内容,内容有 AI 生成的,返回来的是 md 格式,所以需要给用户展示 md 格式,并且管理端也可以编辑这个 md 格式的文档。 使用组件库 v-md-editor。 https://code-farmer-i.github.i…...
OpenVela 架构剖析:从内核到应用
目录 一、总体架构概述 二、 内核层 2.1. OpenVela架构的内核基础 2.2. 内核层的主要职责 2.3. OpenVela对NuttX的扩展与优化 三、系统服务层 2.1. 进程管理 2.2. 内存管理 2.3. 文件系统 2.4. 网络通信 四、框架层 4.1. 模块化设计 4.2. API接口 4.3. 组件和服务…...

vue视频流播放,支持多种视频格式,如rmvb、mkv
先将视频转码为ts ffmpeg -i C:\test\3.rmvb -codec: copy -start_number 0 -hls_time 10 -hls_list_size 0 -f hls C:\test\a\output.m3u8 后端配置接口 import org.springframework.core.io.Resource; import org.springframework.core.io.UrlResource; import org.spring…...
记一个Timestamp时区问题的坑
resultSet.getTimestamp(“kpi_collect_time”)查出来的Timestamp居然是带时区的, 如果该Timestamp不是UTC时区的,Timestamp.toInstant().atZone(ZoneId.of(“UTC”))会把Timestamp转成UTC时区 使用Timestamp.toLocalDateTime()可以直接把时区信息抹除 …...

新年好(Dijkstra+dfs/全排列)
1135. 新年好 - AcWing题库 思路: 1.先预处理出1,a,b,c,d,e到其他点的单源最短路,也就是进行6次Dijkstra 2.计算以1为起点的这6个数的全排列,哪种排列方式所得距离最小,也可以使用dfs 1.Dijkstradfs #define int long longusing …...
uniapp 对接腾讯云IM群组成员管理(增删改查)
UniApp 实战:腾讯云IM群组成员管理(增删改查) 一、前言 在社交类App开发中,群组成员管理是核心功能之一。本文将基于UniApp框架,结合腾讯云IM SDK,详细讲解如何实现群组成员的增删改查全流程。 权限校验…...
OpenLayers 可视化之热力图
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 热力图(Heatmap)又叫热点图,是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...
ubuntu搭建nfs服务centos挂载访问
在Ubuntu上设置NFS服务器 在Ubuntu上,你可以使用apt包管理器来安装NFS服务器。打开终端并运行: sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享,例如/shared: sudo mkdir /shared sud…...

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
线程同步:确保多线程程序的安全与高效!
全文目录: 开篇语前序前言第一部分:线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案 第二部分:synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块 第三部分ÿ…...

2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...

学校招生小程序源码介绍
基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码,专为学校招生场景量身打造,功能实用且操作便捷。 从技术架构来看,ThinkPHP提供稳定可靠的后台服务,FastAdmin加速开发流程,UniApp则保障小程序在多端有良好的兼…...
Java多线程实现之Callable接口深度解析
Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...
ffmpeg(四):滤镜命令
FFmpeg 的滤镜命令是用于音视频处理中的强大工具,可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下: ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜: ffmpeg…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...