当前位置：首页 > news >正文

2024年，每一个大模型都躲不过容嬷嬷和紫薇

news 2026/2/11 2:49:16

2024年还不上视频生成的大模型公司，还能上桌吃饭吗？

连最积极搞AI的李彦宏，在这件事上也迟疑了。

“百度不碰Sora类的视频生成方向。”李彦宏在近期的2024年Q3总监会上说道。原因在于，10年、20年都可能难以商业化应用。

从OpenAI Sora横空出世，再到6月的快手可灵全量上线，视频生成成为2024年最火热的AI话题。

厂商们纷纷开始你追我赶。从4月至今，视频生产模型如同雨后春笋一般——除了快手、字节、阿里等大厂，头部大模型公司如智谱、MiniMax，以及生数科技、智象未来等垂类厂商，均发布了视频生成模型。

国内视频模型的涌现，也让“容嬷嬷和紫薇”的鬼畜形象再次翻红，她俩活在不同的视频模型demo和网友二创中，考验着不同模型的效果：

图源：可灵，来自公开网络

图源：即梦AI，智能涌现制图

行业对“超级应用”的渴望溢于言表，甚至影响到了如今大模型的路线——到底做不做视频大模型，影响国内“大模型六小虎”（智谱、月之暗面、MiniMax、百川智能、阶跃星辰、零一万物）走势的关键决策。

不过，对于做不做视频模型，国内大模型厂商仍未达成共识，而是分成了截然不同的几派：

有厂商迅速跟进。 7月，智谱就推出了类Sora的视频生成模型“智谱清影”；8月，MiniMax发布视频模型Video-01。

而阶跃星辰发布新图像模型，也在今年7月的上海世界人工智能大会上，做了少量的视频生成尝试。

也有旗帜鲜明的反对者。“百川不会做Sora。”今年5月，百川智能CEO王小川就在“智能涌现”的专访中就表示。他认为，Sora并不在AGI（通用人工智能），即提升模型智力水平的主线上。

也有在探索后暂缓的厂商。最受关注的月之暗面，6月被媒体报道在海外试水两个新应用——角色扮演应用Ohai，以及AI音乐/视频生成应用Noisse。据“智能涌现”了解，这两个应用因为效果不达预期，后来并没有被单独立项，停留在试验阶段。

而在近期的“Kimi探索版”上线后，月之暗面还将发布多模态相关能力。不过，还不确定是否会有视频生成相关功能。

直到国庆前后，视频生成领域迎来两位重磅玩家：9月24日，字节跳动低调甩出了Seaweed和Pixeldance两款产品。

而紧接着的10月5日，Meta放出的系列模型Movie Gen，则又一次炸场。

图注：2024上半年，全球已涌现了不少视频模型和产品，在中国尤其热闹

在语言模型迭代放缓的当下，视频生成模型似乎成了那个更有希望的AI应用新方向——大厂也还没形成垄断。对初创公司而言，这更是一次重要选择——到底要不要做Sora？

分叉路，要选哪条？

首先需要厘清的一个概念是，大厂、创业公司如今普遍标配的“多模态能力”（图像、语音等模态），以及类Sora的视频生成模型，并不是同样的东西。

“多模态能力，相当于是让模型能够理解图像、音频、视频等形式，但还是基于大语言模型延伸的能力。”一位大模型从业者对“智能涌现”分析，“将视频、图片、语音输入到大模型里，是基于大语言模型做‘理解’；但生成视频，则是依靠视频模型的能力。”

“类Sora”产品所依靠的视频生成模型，借鉴了大语言模型（LLM）中Transformer架构等技术思路，但和大语言模型（LLM）是两种不同的事物。

这意味着，如果要做一个视频生成模型，相当于另起炉灶，从0到1重新搭模型。

可以肯定的是，要做视频生成模型，当前还注定是少数人的游戏。

再造一个“Sora”，成本高昂。

据Meta的数据，Movie Gen用了6144张H100进行训练，视频模型参数达到30B（300亿）。在国内，拥有此等训练资源的厂商，本就不多。

而眼下，国内大模型厂商基本都已经上齐了多模态能力，至于是否做视频生成方向，还处于摇摆状态。

对拥有短视频相关业务的大厂，如抖音、快手等，视频生成是不能输的方向。据硅星人报道，对可灵的大力投入，一个重要动力是为了服务于快手的内容生态——2023年，首次在快手发布短视频的创作者就有1.38亿。

另外，快手做可灵，也意在服务快手的电商生态，比如为MCN、电商商家提供商品相关的AI内容生成服务。

但对初创玩家来说，在AI应用方向不明朗的当下，大家都在忐忑地摸着石头过河。

有玩家早早坚定了自己选择的道路。一开始打定不做Sora的百川，在2024年全力落地医疗场景，并推出了自己的医疗AI助手。

专门做视频生成的垂类厂商，也拿到了阶段性的结果，比如生数科技旗下的Vidu，在8月上线后，两个月内，VIdu的月访问量就已经达到552万。

但能不能把新故事讲成自己的，还得看各家的真本事。视频生成领域的技术路线尚未收敛，市面上的顶级视频生成模型几乎都选择了闭源。

这意味着，玩家们需要投入真金白银去试错——选什么技术路线和应用场景，才决定AGI大潮退去后，谁能真正留在岸上。

文本太卷，Agent太远，

视频生成刚刚好？

OpenAI的Sora尚且没有放开使用，为什么视频生成如今成了国内的香饽饽？

以GPT-4作为参考标杆，国内头部的大模型厂商和大厂，在今年上半年都已慢慢接近GPT-4的水平，在OpenAI后续发布GPT-4o后，厂商也都陆续跟进了多模态能力。

但GPT-5迟迟未出，意味着在语言模型上，国内大模型的厂商基本难以拉开代际差距。

另一方面，大模型跑了一年多，其落地和商业化成果还未让市场信服。

在国内，大部分的AI应用方向都陷入叫好不叫座的困境。细数这两年火过的AI应用方向——ChatBot/情感陪伴等类ChatGPT产品、文生图、AI音乐、AI搜索，都迅速陷入同质化竞争的局面。

以国内头部的AI应用举例，豆包、Kimi等在今年上半年经历了激烈的投流竞争，用户数最高已达千万级别，但商业化情况并不理想。

不少从业者认为，应用难以商业化，很大程度要归结到文本模型迭代放缓，能力提升变慢。这也让一些更遥远的，能完成更多复杂任务的方向——比如Agent（智能体），越发模糊。

“智能涌现”了解到的一个例证是，字节旗下的AI开发平台扣子的Agent业务，在今年就经历了一轮缩减。

而近期圈内热切讨论的放弃大模型的预训练阶段，意味着不少厂商要走下追求的牌桌，转向AI应用落地，继续活下去。

厂商们需要新故事，视频生成方向则刚好站在中间点：既有足够技术和开发壁垒，但壁垒不会高到玩家摸不着，前景也足够大。

“语言模型的商业化就不提了，初创公司至少还要想象力。如果头部初创公司不转其他应用方向，就什么都没有，怎么撑起这么高的估值？”一位从业者直言。

2023年，不少做视频生成的创业者都对“智能涌现”表示，如今的视频生成领域可类比处在GPT-2到GPT3阶段。这意味着比ChatGPT的效果稍稍略落后，比语言模型所处的发展阶段早很多。

但Sora发布后，视频生成领域已经看到了GPT-3.5阶段的曙光。“这个阶段意味着，让你看到这个赛道的巨大潜力，市场愿意投入。”一位从业者对“智能涌现”表示。

共识摇摆的背后，源于赛道仍处发展早期，还有不少探索机会。比如，刚刚发布的Meta Movie Gen。在Transformer架构基础上，使用了Flow Matching（流匹配技术），这就与Sora的路线有很大不同，也意味着整个赛道的技术路线尚未收敛。

在国内，这个方向上也有得天独厚的短视频生态，视频生成方向的模型探索，也因此站在全球前沿。

6月爆火的快手视频模型“可灵”，就是典型例子——在大厂中，快手并不是AI人才、资源的制高点，但经历短短数月攻坚，快手可灵仅凭20多人的小团队，硬是在一众大模型厂商中闯出一条路，可灵凭借怀旧照片等一系列策划，热度一度传到大洋彼岸的硅谷。

Stability.ai创始人转发可灵产品，评论“中国在AI上有着巨大优势” 来源：X

并且，视频生成方向还处在早期，算力成本仍处高位，一旦开始商业化，付费已是必选项。

在海外，视频生成已经走出了不同路线——头部的视频厂商Runway和Pika都专注做B端的生产力工具，Runway甚至已经打入好莱坞，达成了不少影视界的合作。在国内，可灵、Minimax等厂商也早早开始了付费尝试。

归根结底，很少人愿意错过这个方向。毕竟，视频已经取代文字，成为互联网上流量占比最高的信息内容。据Sandvine《2023全球互联网现象报告》，2022年全球互联网视频服务，就占到总流量的65.93%。

随着视频生成技术不断成熟，这也许不会只是大厂的游戏。初创公司可以结合技术，以及巧妙的运营手段，快速闯出一条自己的道路。

来源：Pika

硅谷视频生成明星初创Pika，就摸到了不少流量密码：一出道，就选择先在开发者聚集的Discord运营，并且迅速获得50万用户。

到了今年10月，Pika新发布的1.5模型中，还带来了更多社交运营玩法：内置了充气、融化、爆炸、捏揉、压扁等模板，引来全球网友“整活儿”，服务器甚至因为涌入的用户太多而崩溃——有网友就不禁回忆起当年：与早期的TikTok冷启动时期如出一辙。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

2024年，每一个大模型都躲不过容嬷嬷和紫薇

文本太卷，Agent太远，

视频生成刚刚好？

如何学习大模型

相关文章：

2024年，每一个大模型都躲不过容嬷嬷和紫薇

SpringBoot之RedisTemplate基本配置

SparseRCNN 模型，用于目标检测任务

【AIGC】第一性原理下的ChatGPT提示词Prompt设计：系统信息与用户信息的深度融合

DeepSpeed性能调优与常见问题解决方案

【GESP】C++一级练习BCQM3052，鸡兔同笼

Android面试之5个性能优化相关的深度面试题

R语言机器学习算法实战系列（六）K-邻近算法 (K-Nearest Neighbors)

FPGA图像处理之构建3×3矩阵

【Linux】进程间通信(匿名管道)

memset()函数的实现

STM32CUBEIDE FreeRTOS操作教程（七）：queue队列

类型转换与字符串操作：数据的灵活变形！

动态规划18：188. 买卖股票的最佳时机 IV

YOLOv8改进 - 注意力篇 - 引入ShuffleAttention注意力机制

基于Multisim的8路彩灯循环控制电路设计与仿真

完整的模型训练套路 pytorch

2024年十大前沿图像分割模型汇总：工作机制、优点和缺点介绍

Notepad++将搜索内容所在行选中，并进行复制等操作

[Java EE] IP 协议 | NAT 机制 | 路由选择 | MAC 地址 | 域名解析服务

关键领域软件测试的突围之路：如何破解安全与效率的平衡难题

MySQL账号权限管理指南：安全创建账户与精细授权技巧

JavaScript基础-API 和 Web API

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准

论文阅读：Matting by Generation

uni-app学习笔记三十五--扩展组件的安装和使用

英国云服务器上安装宝塔面板（BT Panel）

多模态大语言模型arxiv论文略读（110）

Linux系统：进程间通信-匿名与命名管道

World-writable config file /etc/mysql/mysql.conf.d/my.cnf is ignored