当前位置: 首页 > article >正文

多模态2025:技术路线“神仙打架”,视频生成冲上云霄

文|魏琳华

编|王一粟

一场大会,聚集了中国多模态大模型的“半壁江山”。

智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省理工)的相关专家学者。

自回归、扩散、原生多模态......围绕种种技术路线的论证和实践分享都证明了一件事:相比硕果仅存的大语言模型战场,多模态大模型的技术路线还远远没有收敛。

“多模态大模型已在特定场景启动落地,但尚未实现高度普适化。”智源研究院院长王仲远给出了这样的判断。他指出,根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平,将推动产业进一步发展。

在种种空白中,多模态想要打开下半场的入口,显然还有一段路要走。

多模态,尚未迎来“ChatGPT时刻”

“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”

面对“如何看待大模型下半场”的问题时,Sand.ai联合创始人张拯给出了这样的回答。

“慢一拍”的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来CEO梅涛指出,目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。

叙事性,即保证视频“做5分钟和1小时是完整的故事”,保持IP的一致性;而在稳定性上,需要保证画面质量、运动连贯性、时序一致性等方面的稳定,目前表现较好;可控性,则是衡量视频内容生成的精准程度,第几秒出现什么镜头,人物做什么表情等要求非常高。但今天的大模型,还无法达到这样的水准。

现阶段,想要提升模型生成效果,数据质量就成了关键。

“我们为什么会看到Google的Veo 3,很多模型做得很好、做得很逼真,如果在模型架构上大家都趋同的话,其实真正的竞争就取决于高质量的数据。”智象未来CEO梅涛说,“其实我们并没有产生所谓新的智能,只是在复制我们看到的这个世界。”

Google Veo 3模型展示

围绕如何提升多模态大模型的能力,多家企业所践行的技术路线并不相同。

相对于普遍采用Diffusion Transformer(Dit,即扩散Transformer)模型的文生图、文生视频领域,多模态大模型到底是采用自回归模型、扩散模型还是其他方式,业内对此没有达成共识。

在大会现场,Sand.ai CEO曹越给出了他对扩散模型带来的问题思考:

“技术层面,主流的Diffusion和Transformer的训练方案还是存在很大问题,核心问题在于可扩展性不足。”曹越说,“在Diffusion Transformer路线上,现在证明生成5秒视频可以有不错的效果,但随着模型规模提升,会快速达到瓶颈。”

即使在生成机制一致的情况下,模型架构和训练方式的不同也对模型生成效果带来影响。

在Luma AI创始人宋佳铭看来,多模态大模型进入下半场的前提,是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。

是将多个模态拼接训练,还是在一开始就采用统一架构,把各种模态的信息丢到一起统一训练,这就是多模态和“原生多模态”两条路线的区分。

“当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息。”王仲远说,“这就如同先达到博士学位水平,再去接触其他知识。”

然而,在上述过程中,模型的能力可能会出现下降。用王仲远的话说,模型的能力可能从 “博士” 水平降至 “大学” 甚至 “高中” 水平。

为了解决这个问题,智源研究院早在去年10月上线了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。

作为原生多模态模型,Emu3采用自回归的生成方式,基于下一个token预测范式统一多模态学习,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。

也就是说,你可以随意将文字、语音和视频丢给Emu3处理,而它也同样能够用这三种形式生成内容,实现跨模态交互。

想要通往多模态大模型的下半场,多模态数据形态的扩充也是关键之一。MIT CSAIL何凯明组博士后研究员黎天鸿认为,真正的“下半场”多模态,应该是模型能处理超越人类感官的数据。

在会议现场中,智源研究院也分享了在图像、文字、声音和视频之外,多模态数据形态的扩充——脑信号。

“悟界”大模型系列中的见微Brainμ就脱胎于Emu3的“骨架”中。基于Emu3的底层架构,智源研究院成功将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并完成了100万单位的神经信号预训练。

“脑信号数据是第一个尝试,”王仲远说,“具身领域的数据有更多模态,比如,3D信号、时空信号等,都可以作为一种模态进行融合。”

可以说,做原生多模态大模型的成本高、技术实现困难,对于拼落地速度的企业来说,是一个冒险的尝试。作为科研机构,智源研究院在做的事情,就是先替行业蹚出一条路。

多模态生成落地拐点,视频模型加速商业厮杀

在学界和业界探索技术道路的同时,企业端正在加速多模态大模型在行业中的落地进程,这也是中国AI发展的鲜明特色——商业化和模型发展并驾齐驱。

字节跳动Seed图像&视频生成负责人黄伟林给出两组数据印证:2025年,就是图像生成商业化元年。

“以效率数据为例,用户生成100张图的下载率在过去一年提升了3倍,如今高达60%以上,说明它已经越过了商业化的关键门槛。”黄伟林说,“从用户留存来看,比如30天留存,从原来的十几个百分点提升到了40%左右。”

谷歌对多模态市场规模的预估

当技术门槛逐渐降低、成本效率达到要求,AI视频生成也迎来了市场增长的黄金期。

黄伟林表示,目前头部视频生成产品的年化收入(ARR)预计今年达到1亿美元,明年可能增长到5到10亿美元。

生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点:在技术迭代迅速,效果、速度和成本提升的同时,行业需求增长旺盛,视频相关产业的落地节奏也在提速。

虽然当前大模型技术路线并不收敛,但在目前应用落地的阶段,AI视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求,并且把生成时间压缩到极低。

张拯认为,在不同发展阶段,AI视频生成会有完全不同的PMF。

比如,在早期阶段,很多交给人都非常难拍的视频,即使质量很差或者需要非常多的抽卡才能抽到视频,但是也远比搭一个景再拍内容的成本低4~5个数量级。

张拯举了个例子,比如拍摄在太空中的航空母舰,需要通过特效团队逐帧去做。但是现在交给模型,哪怕需要100次抽卡,最后要500元才能抽出一个片段,这个成本也比之前低很多。

在大量的应用场景下,中国的多模态大模型公司们,围绕着B端还是C端、哪条路先走的商业化路线,给出了不同的答案。

现阶段,AI视频在C端应用的突出案例,就是依靠视频生成的AI视频特效。

曾在TikTok团队提供AI视频技术支持,爱诗科技创始人王长虎分享了旗下产品PixVerse的突破里程碑,就来自于特效模版的上线。

据王长虎分享,通过特效视频模版在抖音以及国内外各大社交媒体上的传播,PixVerse打响了知名度。当月,在中国产品出海增速榜,PixVerse排在第二名,访问量提升80%。他还分享了一个印象深刻的数据——今年4月,超过PixVerse MAU增长的AI产品只有DeepSeek。

在技术快速迭代的同时,爱诗科技在商业化做出了自己的选择——先做To C,再做To B。靠着C端带起的声量,爱诗科技今年将版图放到了B端,于今年1月支持各行业的API和定制化视频生成,涵盖互联网、营销、电商等。

相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里,生数科技有1年半都在琢磨落地问题,更在行业划分上,骆怡航给出了“八大行业、三十大场景”的版图,其中,互联网、广告、电影、动漫的应用占到了8成。

在切入B端的思考中,生数科技强调的是对成本以及生产效率的降低。

“要想满足技术需求,很重要的一点是,(AI视频生成)生产效率要提升100倍,生产成本要降低100倍,必须要和行业深入适配,满足行业的专业需求。”骆怡航说。

骆怡航分享,一家海外动画工作室和VIDU合作,打造了一个“AI动漫”工作流,能够批量生成创意,他们用两个月时间,生产了50集AI动漫短片。

当效率和生成达到满足商用的节点,当AI企业们陆续把商业化提上日程。可以预见的是,下半年,多模态领域的AI生成将在商业化上迎来更激烈的比拼。

相关文章:

多模态2025:技术路线“神仙打架”,视频生成冲上云霄

文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...

C++实现分布式网络通信框架RPC(3)--rpc调用端

目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

Cursor实现用excel数据填充word模版的方法

cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...

synchronized 学习

学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

C++_核心编程_多态案例二-制作饮品

#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为&#xff1a;煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例&#xff0c;提供抽象制作饮品基类&#xff0c;提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

深入剖析AI大模型:大模型时代的 Prompt 工程全解析

今天聊的内容&#xff0c;我认为是AI开发里面非常重要的内容。它在AI开发里无处不在&#xff0c;当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"&#xff0c;或者让翻译模型 "将这段合同翻译成商务日语" 时&#xff0c;输入的这句话就是 Prompt。…...

使用VSCode开发Django指南

使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架&#xff0c;专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用&#xff0c;其中包含三个使用通用基本模板的页面。在此…...

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外&#xff0c;K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案&#xff0c;全安装在K8S群集中。 具体可参…...

超短脉冲激光自聚焦效应

前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应&#xff0c;这是一种非线性光学现象&#xff0c;主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场&#xff0c;对材料产生非线性响应&#xff0c;可能…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化&#xff1a;人工智能的自我改进与监管挑战 文章目录 递归进化&#xff1a;人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管&#xff1f;3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

Linux 文件类型,目录与路径,文件与目录管理

文件类型 后面的字符表示文件类型标志 普通文件&#xff1a;-&#xff08;纯文本文件&#xff0c;二进制文件&#xff0c;数据格式文件&#xff09; 如文本文件、图片、程序文件等。 目录文件&#xff1a;d&#xff08;directory&#xff09; 用来存放其他文件或子目录。 设备…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题&#xff1a; 下面创建一个简单的Flask RESTful API示例。首先&#xff0c;我们需要创建环境&#xff0c;安装必要的依赖&#xff0c;然后…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘

美国西海岸的夏天&#xff0c;再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至&#xff0c;这不仅是开发者的盛宴&#xff0c;更是全球数亿苹果用户翘首以盼的科技春晚。今年&#xff0c;苹果依旧为我们带来了全家桶式的系统更新&#xff0c;包括 iOS 26、iPadOS 26…...

TDengine 快速体验(Docker 镜像方式)

简介 TDengine 可以通过安装包、Docker 镜像 及云服务快速体验 TDengine 的功能&#xff0c;本节首先介绍如何通过 Docker 快速体验 TDengine&#xff0c;然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker&#xff0c;请使用 安装包的方式快…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

stm32G473的flash模式是单bank还是双bank?

今天突然有人stm32G473的flash模式是单bank还是双bank&#xff1f;由于时间太久&#xff0c;我真忘记了。搜搜发现&#xff0c;还真有人和我一样。见下面的链接&#xff1a;https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

springboot 百货中心供应链管理系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;百货中心供应链管理系统被用户普遍使用&#xff0c;为方…...

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

在对接支付宝API的时候&#xff0c;遇到了一些问题&#xff0c;记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表&#xff1f;1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

智慧医疗能源事业线深度画像分析(上)

引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误&#xff0c;它们的含义、原因和解决方法都有显著区别。以下是详细对比&#xff1a; 1. HTTP 406 (Not Acceptable) 含义&#xff1a; 客户端请求的内容类型与服务器支持的内容类型不匹…...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间&#xff0c; 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点&#xff0c;不需要开启数据库闪回。…...

论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)

HoST框架核心实现方法详解 - 论文深度解读(第二部分) 《Learning Humanoid Standing-up Control across Diverse Postures》 系列文章: 论文深度解读 + 算法与代码分析(二) 作者机构: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学 论文主题: 人形机器人…...

微信小程序之bind和catch

这两个呢&#xff0c;都是绑定事件用的&#xff0c;具体使用有些小区别。 官方文档&#xff1a; 事件冒泡处理不同 bind&#xff1a;绑定的事件会向上冒泡&#xff0c;即触发当前组件的事件后&#xff0c;还会继续触发父组件的相同事件。例如&#xff0c;有一个子视图绑定了b…...