多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华
编|王一粟
一场大会,聚集了中国多模态大模型的“半壁江山”。
智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省理工)的相关专家学者。
自回归、扩散、原生多模态......围绕种种技术路线的论证和实践分享都证明了一件事:相比硕果仅存的大语言模型战场,多模态大模型的技术路线还远远没有收敛。
“多模态大模型已在特定场景启动落地,但尚未实现高度普适化。”智源研究院院长王仲远给出了这样的判断。他指出,根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平,将推动产业进一步发展。
在种种空白中,多模态想要打开下半场的入口,显然还有一段路要走。
多模态,尚未迎来“ChatGPT时刻”
“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”
面对“如何看待大模型下半场”的问题时,Sand.ai联合创始人张拯给出了这样的回答。
“慢一拍”的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来CEO梅涛指出,目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。
叙事性,即保证视频“做5分钟和1小时是完整的故事”,保持IP的一致性;而在稳定性上,需要保证画面质量、运动连贯性、时序一致性等方面的稳定,目前表现较好;可控性,则是衡量视频内容生成的精准程度,第几秒出现什么镜头,人物做什么表情等要求非常高。但今天的大模型,还无法达到这样的水准。
现阶段,想要提升模型生成效果,数据质量就成了关键。
“我们为什么会看到Google的Veo 3,很多模型做得很好、做得很逼真,如果在模型架构上大家都趋同的话,其实真正的竞争就取决于高质量的数据。”智象未来CEO梅涛说,“其实我们并没有产生所谓新的智能,只是在复制我们看到的这个世界。”
Google Veo 3模型展示
围绕如何提升多模态大模型的能力,多家企业所践行的技术路线并不相同。
相对于普遍采用Diffusion Transformer(Dit,即扩散Transformer)模型的文生图、文生视频领域,多模态大模型到底是采用自回归模型、扩散模型还是其他方式,业内对此没有达成共识。
在大会现场,Sand.ai CEO曹越给出了他对扩散模型带来的问题思考:
“技术层面,主流的Diffusion和Transformer的训练方案还是存在很大问题,核心问题在于可扩展性不足。”曹越说,“在Diffusion Transformer路线上,现在证明生成5秒视频可以有不错的效果,但随着模型规模提升,会快速达到瓶颈。”
即使在生成机制一致的情况下,模型架构和训练方式的不同也对模型生成效果带来影响。
在Luma AI创始人宋佳铭看来,多模态大模型进入下半场的前提,是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。
是将多个模态拼接训练,还是在一开始就采用统一架构,把各种模态的信息丢到一起统一训练,这就是多模态和“原生多模态”两条路线的区分。
“当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息。”王仲远说,“这就如同先达到博士学位水平,再去接触其他知识。”
然而,在上述过程中,模型的能力可能会出现下降。用王仲远的话说,模型的能力可能从 “博士” 水平降至 “大学” 甚至 “高中” 水平。
为了解决这个问题,智源研究院早在去年10月上线了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。
作为原生多模态模型,Emu3采用自回归的生成方式,基于下一个token预测范式统一多模态学习,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。
也就是说,你可以随意将文字、语音和视频丢给Emu3处理,而它也同样能够用这三种形式生成内容,实现跨模态交互。
想要通往多模态大模型的下半场,多模态数据形态的扩充也是关键之一。MIT CSAIL何凯明组博士后研究员黎天鸿认为,真正的“下半场”多模态,应该是模型能处理超越人类感官的数据。
在会议现场中,智源研究院也分享了在图像、文字、声音和视频之外,多模态数据形态的扩充——脑信号。
“悟界”大模型系列中的见微Brainμ就脱胎于Emu3的“骨架”中。基于Emu3的底层架构,智源研究院成功将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并完成了100万单位的神经信号预训练。
“脑信号数据是第一个尝试,”王仲远说,“具身领域的数据有更多模态,比如,3D信号、时空信号等,都可以作为一种模态进行融合。”
可以说,做原生多模态大模型的成本高、技术实现困难,对于拼落地速度的企业来说,是一个冒险的尝试。作为科研机构,智源研究院在做的事情,就是先替行业蹚出一条路。
多模态生成落地拐点,视频模型加速商业厮杀
在学界和业界探索技术道路的同时,企业端正在加速多模态大模型在行业中的落地进程,这也是中国AI发展的鲜明特色——商业化和模型发展并驾齐驱。
字节跳动Seed图像&视频生成负责人黄伟林给出两组数据印证:2025年,就是图像生成商业化元年。
“以效率数据为例,用户生成100张图的下载率在过去一年提升了3倍,如今高达60%以上,说明它已经越过了商业化的关键门槛。”黄伟林说,“从用户留存来看,比如30天留存,从原来的十几个百分点提升到了40%左右。”
谷歌对多模态市场规模的预估
当技术门槛逐渐降低、成本效率达到要求,AI视频生成也迎来了市场增长的黄金期。
黄伟林表示,目前头部视频生成产品的年化收入(ARR)预计今年达到1亿美元,明年可能增长到5到10亿美元。
生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点:在技术迭代迅速,效果、速度和成本提升的同时,行业需求增长旺盛,视频相关产业的落地节奏也在提速。
虽然当前大模型技术路线并不收敛,但在目前应用落地的阶段,AI视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求,并且把生成时间压缩到极低。
张拯认为,在不同发展阶段,AI视频生成会有完全不同的PMF。
比如,在早期阶段,很多交给人都非常难拍的视频,即使质量很差或者需要非常多的抽卡才能抽到视频,但是也远比搭一个景再拍内容的成本低4~5个数量级。
张拯举了个例子,比如拍摄在太空中的航空母舰,需要通过特效团队逐帧去做。但是现在交给模型,哪怕需要100次抽卡,最后要500元才能抽出一个片段,这个成本也比之前低很多。
在大量的应用场景下,中国的多模态大模型公司们,围绕着B端还是C端、哪条路先走的商业化路线,给出了不同的答案。
现阶段,AI视频在C端应用的突出案例,就是依靠视频生成的AI视频特效。
曾在TikTok团队提供AI视频技术支持,爱诗科技创始人王长虎分享了旗下产品PixVerse的突破里程碑,就来自于特效模版的上线。
据王长虎分享,通过特效视频模版在抖音以及国内外各大社交媒体上的传播,PixVerse打响了知名度。当月,在中国产品出海增速榜,PixVerse排在第二名,访问量提升80%。他还分享了一个印象深刻的数据——今年4月,超过PixVerse MAU增长的AI产品只有DeepSeek。
在技术快速迭代的同时,爱诗科技在商业化做出了自己的选择——先做To C,再做To B。靠着C端带起的声量,爱诗科技今年将版图放到了B端,于今年1月支持各行业的API和定制化视频生成,涵盖互联网、营销、电商等。
相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里,生数科技有1年半都在琢磨落地问题,更在行业划分上,骆怡航给出了“八大行业、三十大场景”的版图,其中,互联网、广告、电影、动漫的应用占到了8成。
在切入B端的思考中,生数科技强调的是对成本以及生产效率的降低。
“要想满足技术需求,很重要的一点是,(AI视频生成)生产效率要提升100倍,生产成本要降低100倍,必须要和行业深入适配,满足行业的专业需求。”骆怡航说。
骆怡航分享,一家海外动画工作室和VIDU合作,打造了一个“AI动漫”工作流,能够批量生成创意,他们用两个月时间,生产了50集AI动漫短片。
当效率和生成达到满足商用的节点,当AI企业们陆续把商业化提上日程。可以预见的是,下半年,多模态领域的AI生成将在商业化上迎来更激烈的比拼。
相关文章:

多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...

C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
Cursor实现用excel数据填充word模版的方法
cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...
synchronized 学习
学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...
基于大模型的 UI 自动化系统
基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

linux之kylin系统nginx的安装
一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

C++_核心编程_多态案例二-制作饮品
#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为:煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例,提供抽象制作饮品基类,提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...

使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
SkyWalking 10.2.0 SWCK 配置过程
SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外,K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案,全安装在K8S群集中。 具体可参…...

超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
【杂谈】-递归进化:人工智能的自我改进与监管挑战
递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

Linux 文件类型,目录与路径,文件与目录管理
文件类型 后面的字符表示文件类型标志 普通文件:-(纯文本文件,二进制文件,数据格式文件) 如文本文件、图片、程序文件等。 目录文件:d(directory) 用来存放其他文件或子目录。 设备…...

Flask RESTful 示例
目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...

C++初阶-list的底层
目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...

TDengine 快速体验(Docker 镜像方式)
简介 TDengine 可以通过安装包、Docker 镜像 及云服务快速体验 TDengine 的功能,本节首先介绍如何通过 Docker 快速体验 TDengine,然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker,请使用 安装包的方式快…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

springboot 百货中心供应链管理系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,百货中心供应链管理系统被用户普遍使用,为方…...

调用支付宝接口响应40004 SYSTEM_ERROR问题排查
在对接支付宝API的时候,遇到了一些问题,记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...
Linux链表操作全解析
Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表?1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误
HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误,它们的含义、原因和解决方法都有显著区别。以下是详细对比: 1. HTTP 406 (Not Acceptable) 含义: 客户端请求的内容类型与服务器支持的内容类型不匹…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)
HoST框架核心实现方法详解 - 论文深度解读(第二部分) 《Learning Humanoid Standing-up Control across Diverse Postures》 系列文章: 论文深度解读 + 算法与代码分析(二) 作者机构: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学 论文主题: 人形机器人…...

微信小程序之bind和catch
这两个呢,都是绑定事件用的,具体使用有些小区别。 官方文档: 事件冒泡处理不同 bind:绑定的事件会向上冒泡,即触发当前组件的事件后,还会继续触发父组件的相同事件。例如,有一个子视图绑定了b…...