All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。
诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的回答,其水平成为了各OEM座舱差异化竞争的关键要素。
“2024年开始,车载语音助手的核心技术路径,已经慢慢转成大模型了;相对传统技术,大模型的核心优势之一就是理解能力、上下文关联的能力特别强。”云知声联合创始人、副总裁李霄寒表示。
很明显,座舱语音作为座舱娱乐和交互功能的重要入口,与大模型有着极高的契合度。尤其是自2022年底以ChatGPT为代表的大语言模型发布,国内外诸多玩家也在积极探索以大模型为基础的智能体(Agent)。
其中,云知声在2023年5月就发布了自研的山海大模型,交出了在AGI领域的第一张答卷。
彼时,其山海大模型的语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力,及插件扩展、领域增强、企业定制三项行业落地能力已经处于业界前列。
在此基础上,云知声通过快速整合具体业务场景的相关知识与规范,已经打造了医疗病例生成Agent、交通客服Agent、智能座舱Agent等典型的行业Agent应用。
具体到智能座舱领域,云知声依托山海大模型重构了语音识别、语义理解、语音合成的全链路语音方案。基于大模型的理解与生成能力,其方案深度赋能用车、出游、主动关怀、健康、通用聊天等多个细分场景。
而自去年5月中旬,OpenAI推出GPT-4o,凭借突破性的智能交互能力,掀起了新一轮的多模态大模型新浪潮。与此同时,云知声也在突破更深层次的自然语言理解和多模态交互。
同年8月,云知声顺势推出了山海多模态大模型,通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出,带来实时多模态拟人交互体验,开启AGI新范式。
得益于过去几年不断补强的语音技术栈和大模型能力,搭载云知声语音解决方案的车型已经陆续量产,其客户包括吉利、上汽等。
这也意味着,云知声作为国产大模型的一道缩影,已经初步跑通了座舱语音大模型的技术、产品和商业化路径。
展望2025年,座舱语音的竞争焦点在哪里?大模型将如何重塑座舱语音交互?近日,高工智能汽车独家专访云知声联合创始人、副总裁李霄寒,找到了答案。
01
座舱语音加速迈向真人工智能
作为车内使用频率最高的交互方式,座舱语音既To B也To C。
于用户而言,影响其座舱语音使用频率和体验感的因素包括两点:一是使用门槛要足够低,二是语音交互能做到真正的人工智能。
而站在语音供应商的角度,要想做到以上几点,技术层面的衡量标准,一定是“听得清”、“听得懂”并且“答得好”。
其中,“听得清”是整个座舱语音的基建。毕竟所有座舱语音交互功能的实现,前提条件一定是“听得清”。
但要想做好这一点,并非易事,必须做好座舱语音整体硬件结构设计、软件算法等,这非常考验语音技术栈基础能力,包括降噪、回声消除、音区分离等。
这也恰恰是云知声的强项所在。
例如,云知声打造的降噪解决方案,实际降噪后语音信噪比可达20db以上,实现了音区精确分离,可确保车内对话清晰;回声消除后的语音信回比提升达到 35dB以上;降噪后的蓝牙通话方案,MOS分可以达到4.0以上(最高5分)。
值得一提的是,目前云知声在降噪层面的技术逻辑,已经全部基于数据驱动的神经网络实现。在此基础上,其语音唤醒、语音识别等能力也明显更强。
据统计,在端到端唤醒时延数百次测试中,搭载云知声语音技术的语音助理,最快可达220ms以内;离线识别首字上屏速度小于600ms,在线识别首字上屏速度小于700ms。
另外,“听得懂”作为迄今为止语音座舱最大的挑战之一,有望在大模型的加持下,赋能整个座舱语音做到真正的人工智能。
即在语音技术栈基础之上,结合大模型,语音助理可以做到更快的语义响应速度、更准确的意图理解和上下文跨越理解等,是现阶段座舱语音互相角力的重点。
比如,在山海大模型的加持下,云知声的语音助理的语义平均响应时延达300ms,意图理解准确率达95%,可实现复杂上下文跨域理解、语义纠错等。
而在“听得清”和“听得懂”的技术前提下,“答得好”是用户衡量座舱语音智能化程度最重要的指标之一,其关键点在于以语音助理为交互入口,集成更多的服务,包括多媒体播放、实时导航、车控,以及故障灯释义、维修手册等。
“语音助理什么都能听得懂,即便能做到这一点,假如座舱交互提供的服务只有有限的几类,那用户问到第N +1类服务的时候,再聪明的助理也只能说‘对不起不支持’,在用户看来这个助理就是不智能的。”李霄寒介绍道。
因此,在现有的服务能力上,与主机厂合力配齐更多的服务,亦是云知声在2025年的重点规划之一。
02
All in大模型,赋能主机厂座舱语音产品领先
“2025云知声将All in大模型,所有的车载语音技术方案都用大模型来做,旨在通过新的技术路线,带来新的体验和价值,赋能客户的座舱语音产品上市发布时,在行业内是具备领先性的,这是我们的目标。”李霄寒谈到。
不难发现,占领新一轮座舱语音大模型的技术高地,是接下来OEM在智能座舱差异化方面的技术竞争焦点。
毕竟,现阶段的座舱语音交互,大多还是由语音、文本两套大模型系统组成。其整体交互链路和流程,首先由用户发起语音请求,车机麦克风拾音之后,再调用语音增强能力接口,对音频做回声消除、噪音抑制等预处理。
此后,预处理后的音频需进行识别转写,转写后的文本再通过文本大模型进行语义理解,并给出语义理解的结果,输出文本回复再转化为语音回复。
从应用层面来看,这也极大地影响着用户体验。
一方面,人机对话过程由语音转成文字,再做理解并输出结果,在时间上存在一定的延迟。
另外,语音转变成文字后,会丢失较多的信息,比如情绪信息。即用户分别用愤怒和心平气和的态度说同样的话,得到的回复可能是完全一样的,显然与语音助手追求“拟人”相悖。
“只有把语音和文本两个大模型合并,语音助手才能变成真正听得懂人话的助理,尤其是在做意图理解时,不光能理解文字,还能读懂声音里蕴含的情绪等其它信息,并做出差异化的回复,因此2025年语音大模型会成为主流。”李霄寒表示。
而借助山海大模型,云知声在语音识别、语义理解、语音合成等方面,均已采用大模型技术,实现了语境理解、情绪感知、反馈学习等核心交互能力的增强,赋能座舱体验在不断优化与提升。
比如,在语义理解方面,意图理解大模型彻底解决了过往在意图分类、深度语义理解、多轮交互时的人机对话痛点,在影视问答、旅游推荐、娱乐闲聊、用车问答等高频6大领域准确率超过95%,且大模型语义平均响应时间为300ms。
另外,在语音合成方面,语音大模型支持情感化语音合成,用户可以选择自己喜爱的声音和人设,或者专属声音定制语音包,并支持多语种TTS合成,极大地提升了交互趣味性。
“以语音大模型为主的多模态大模型上车,到底要向用户提供哪些有价值的功能?这是值得供应商和OEM深思的问题,因为大模型上车一定要有价值,能够让用户容易使用,并且愿意使用。”李霄寒向高工智能汽车提到。
站在用户和OEM的角度思考座舱语音产品定位,坚定All in大模型的云知声,在业务层面也有了更清晰的规划。
据介绍,一方面云知声将提供完整的语音座舱解决方案,覆盖降噪、唤醒、识别、理解、语音合成,以及各类开发平台,云端、端侧的功能等;另一方面,针对语音座舱设计比较完善的客户,将以组件的方式提供服务,比如降噪、语音合成等可单独提供模块。
另外,云知声还将继续贴近OEM客户,包括驻厂提供更好、更快的座舱语音服务等,旨在成就客户座舱语音产品具备至少三个月的领先性。
决胜2025年座舱语音交互,云知声及其大模型的实际表现值得期待。
相关文章:

All in大模型!智能座舱语音交互决胜2025
大模型加速上车,AI智能座舱竞争更显白热化。 诚然,在语言大模型为核心的多模态能力加持下,智能语音助理能够理解复杂的语言指令,实现知识问答、文本生成等,以及根据上下文进行逻辑推理,提供更智能、准确的…...

windows git bash 使用zsh 并集成 oh my zsh
参考了 这篇文章 进行配置,记录了自己的踩坑过程,并增加了 zsh-autosuggestions 插件的集成。 主要步骤: 1. git bash 这个就不说了,自己去网上下,windows 使用git时候 命令行基本都有它。 主要也是用它不方便&…...

Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
读书笔记:卓越强迫症强大恐惧症,在亲子家庭、职场关系里尤其是纵向关系模型里,这两种状态很容易无缝衔接。尤其父母对子女、领导对下属,都有望子成龙、强将无弱兵的期望,然而在你的面前,他们才是永远强大的…...

IDEA导入Maven工程不识别pom.xml
0 现象 把阿里 sentinel 项目下载本地后,IDEA 中却没显示 maven 工具栏。 1 右键Maven Projects 点击IDEA右侧边栏的Maven Projects,再点击: 在出现的选择框中选择指定的未被识别的pom.xml即可: 2 Add as maven project 右键p…...

AT8870单通道直流电机驱动芯片
AT8870单通道直流电机驱动芯片 典型应用原理图 描述 AT8870是一款刷式直流电机驱动器,适用于打印机、电器、工业设备以及其他小型机器。两个逻辑输入控制H桥驱动器,该驱动器由四个N-MOS组成,能够以高达3.6A的峰值电流双向控制电机。利用电流…...

计算机视觉算法实战——实体物体跟踪
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域介绍✨✨ 实体物体跟踪(Object Tracking)是计算机视觉领域中的一个重要研究方向&#x…...

网络协议如何确保数据的安全传输?
网络协议作为计算机网络通信的基石,其设计不仅旨在实现数据的有效传输,更在于确保数据在传输过程中的安全性。对于网络协议如何保障数据安全传输,是很多企业和网络IT部门的重点,本文将从多方面概述相关方法。 加密与解密机制 1. …...

在elasticsearch中,document数据的写入流程如何?
本文将为您介绍文档内容是如何写入ES集群中。 数据写入ES集群的流程图如下 流程介绍 用户携带数据发起POST请求指向集群9200端口。9200端口将数据写入请求发给主分片。主分片会对数据进行分片计算分发给具体分片。(计算方式:hash % primary_number_sha…...

【优选算法】6----查找总价格为目标值的两个商品
这道题相对于前寄到算法题较为容易~ 同样也是使用了双指针的算法哦~ ----------------------------------------begin-------------------------------------- 题目解析: 题目也是很简单地一句话,但是意图还是很明确~ 讲解算法原理: 同样的&…...

99.8 金融难点通俗解释:净资产收益率(ROE)
目录 0. 承前1. 简述2. 比喻:养母鸡赚钱2.1 第一步:投资母鸡2.2 第二步:母鸡下蛋2.3 第三步:计算赚钱2.4 第四步:计算ROE 3. 生活中的例子3.1 好的ROE3.2 一般的ROE3.3 差的ROE 4. 小朋友要注意4.1 ROE高不一定好4.2 R…...

Java设计模式—观察者模式
观察者模式 目录 观察者模式1、什么是观察者模式?2、观察者模式优缺点及注意事项?3、观察者模式实现?4、手写线程安全的观察者模式? 1、什么是观察者模式? - 实例:现实生活中很多事物都是依赖存在的&#x…...

人工智能在数字化转型中的角色:从数据分析到智能决策
引言 在数字化转型浪潮中,人工智能(AI)正迅速崛起,成为推动企业创新和变革的关键力量。面对日益复杂的市场环境和激烈的行业竞争,企业亟需借助技术手段提高运营效率、优化决策过程,并增强市场竞争力。而AI…...

论文阅读 Multi-view Classification Using Hybrid Fusion and Mutual Distillation
Multi-view Classification Using Hybrid Fusion and Mutual Distillation Intro 多视角问题可以分为两类: Structured。固定视角,或预先定义的视角的问题。unstructured。 本文的三大contributions: 引入了混合的多视角融合策略。使用了…...

AIGC浪潮下,图文内容社区数据指标体系如何构建?
文章目录 01 案例:以图文内容社区为例实践数据指标体构建02 4个步骤实现数据指标体系构建1. 明确业务目标,梳理北极星指标2. 梳理业务流程,明确过程指标3. 指标下钻分级,构建多层级数据指标体系4. 添加分析维度,构建完…...

”彩色的验证码,使用pytesseract识别出来的验证码内容一直是空“的解决办法
问题:彩色的验证码,使用pytesseract识别出来的验证码内容一直是空字符串 原因:pytesseract只识别黑色部分的内容 解决办法:先把彩色图片精确转换成黑白图片。再将黑白图片进行反相,将验证码部分的内容变成黑色&#…...

前端Vue2项目使用md编辑器
项目中有一个需求,要在前端给用户展示内容,内容有 AI 生成的,返回来的是 md 格式,所以需要给用户展示 md 格式,并且管理端也可以编辑这个 md 格式的文档。 使用组件库 v-md-editor。 https://code-farmer-i.github.i…...

OpenVela 架构剖析:从内核到应用
目录 一、总体架构概述 二、 内核层 2.1. OpenVela架构的内核基础 2.2. 内核层的主要职责 2.3. OpenVela对NuttX的扩展与优化 三、系统服务层 2.1. 进程管理 2.2. 内存管理 2.3. 文件系统 2.4. 网络通信 四、框架层 4.1. 模块化设计 4.2. API接口 4.3. 组件和服务…...

vue视频流播放,支持多种视频格式,如rmvb、mkv
先将视频转码为ts ffmpeg -i C:\test\3.rmvb -codec: copy -start_number 0 -hls_time 10 -hls_list_size 0 -f hls C:\test\a\output.m3u8 后端配置接口 import org.springframework.core.io.Resource; import org.springframework.core.io.UrlResource; import org.spring…...

记一个Timestamp时区问题的坑
resultSet.getTimestamp(“kpi_collect_time”)查出来的Timestamp居然是带时区的, 如果该Timestamp不是UTC时区的,Timestamp.toInstant().atZone(ZoneId.of(“UTC”))会把Timestamp转成UTC时区 使用Timestamp.toLocalDateTime()可以直接把时区信息抹除 …...

新年好(Dijkstra+dfs/全排列)
1135. 新年好 - AcWing题库 思路: 1.先预处理出1,a,b,c,d,e到其他点的单源最短路,也就是进行6次Dijkstra 2.计算以1为起点的这6个数的全排列,哪种排列方式所得距离最小,也可以使用dfs 1.Dijkstradfs #define int long longusing …...

如何“看到” Spring 容器?
Spring 容器是一个运行时的抽象工具,用来管理 Bean 的生命周期和依赖。虽然它本身不可直接观察,但可以通过以下方式间接“看到”容器的内容或行为。 2.1 容器是如何实例化的? Spring 容器的实例化是通过 ApplicationContext 或 BeanFactory …...

怎么使用CRM软件?操作方法和技巧有哪些?
什么是CRM? 嘿,大家好!你知道吗,在当今这个数字化时代里,我们每天都在与各种各样的客户打交道。无论是大公司还是小型企业,都希望能够更好地管理这些关系并提高业务效率。这时候就轮到我们的“老朋友”——…...

Spingboot整合Netty,简单示例
Netty介绍在文章末尾 Netty介绍 项目背景 传统socket通信,有需要自身管理整个状态,业务繁杂等问题。 pom.xml <dependency><groupId>io.netty</groupId><artifactId>netty-all</artifactId><version>4.1.117.F…...

grafana新增email告警
选择一个面板 比如cpu 新增一个临界点表达式 input选A 就是A的值达到某个临界点 触发告警 我这边IS ABOVE0.15就是cpu大于0.15%就触发报警,这个值怎么填看指标的值显示 这里要设置一下报警条件 这边随便配置下 配置标签和通知,选择你的邮件 看下告警…...

Github 2025-01-20 开源项目周报 Top15
根据Github Trendings的统计,本周(2025-01-20统计)共有15个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10Rust项目2TypeScript项目1C++项目1Jupyter Notebook项目1Go项目1Tabby: 自托管的AI编码助手 创建周期:310 天开发语言:Rust协议类…...

【Rabbitmq】Rabbitmq高级特性-发送者可靠性
Rabbitmq发送者可靠性 发送者重连发送者确认1.开启确认机制2.ReturnCallback3.ConfirmCallback MQ的可靠性数据持久化交换机持久化队列持久化消息持久化 Lazy Queue 总结其他文章 Rabbitmq提供了两种发送来保证发送者的可靠性,第一种叫发送者重连,第二种…...

K8S中Service详解(一)
Service介绍 在Kubernetes中,Service资源解决了Pod IP地址不固定的问题,提供了一种更稳定和可靠的服务访问方式。以下是Service的一些关键特性和工作原理: Service的稳定性:由于Pod可能会因为故障、重启或扩容而获得新的IP地址&a…...

Effective C++读书笔记——item23(用非成员,非友元函数取代成员函数)
一、主要观点: 在某些情况下,使用 non-member、non-friend 函数来替换 member 函数可以增强封装性和可扩展性,提供更好的软件设计。 二、详细解释: 封装性: 类成员函数的封装性考量:成员函数可以访问类的…...

云原生前端开发:打造现代化高性能的用户体验
引言:前端开发的新风向 在过去的几年中,前端开发领域经历了快速的演变,从早期的静态网页到如今复杂的单页应用(SPA),再到微前端架构和渐进式Web应用(PWA),前端技术一直处…...

循环队列(C语言版)
循环队列(C语言版) 1.简单介绍循环队列2.使用何种结构来实现3.基本结构4.初始化5.判空判满6.向循环队列插入一个元素7.从循环队列中删除一个元素8.获取队头队尾元素9.释放空间10.完整代码 🌟🌟hello,各位读者大大们你们好呀&#…...