当前位置: 首页 > news >正文

2024年,每一个大模型都躲不过容嬷嬷和紫薇

图片

2024年还不上视频生成的大模型公司,还能上桌吃饭吗?

连最积极搞AI的李彦宏,在这件事上也迟疑了。

“百度不碰Sora类的视频生成方向。”李彦宏在近期的2024年Q3总监会上说道。原因在于,10年、20年都可能难以商业化应用。

从OpenAI Sora横空出世,再到6月的快手可灵全量上线,视频生成成为2024年最火热的AI话题。

厂商们纷纷开始你追我赶。从4月至今,视频生产模型如同雨后春笋一般——除了快手、字节、阿里等大厂,头部大模型公司如智谱、MiniMax,以及生数科技、智象未来等垂类厂商,均发布了视频生成模型。

国内视频模型的涌现,也让“容嬷嬷和紫薇”的鬼畜形象再次翻红,她俩活在不同的视频模型demo和网友二创中,考验着不同模型的效果:

图片

图源:可灵,来自公开网络

图片

图源:即梦AI,智能涌现制图

行业对“超级应用”的渴望溢于言表,甚至影响到了如今大模型的路线——到底做不做视频大模型,影响国内“大模型六小虎”(智谱、月之暗面、MiniMax、百川智能、阶跃星辰、零一万物)走势的关键决策。

不过,对于做不做视频模型,国内大模型厂商仍未达成共识,而是分成了截然不同的几派:

有厂商迅速跟进。 7月,智谱就推出了类Sora的视频生成模型“智谱清影”;8月,MiniMax发布视频模型Video-01。

而阶跃星辰发布新图像模型,也在今年7月的上海世界人工智能大会上,做了少量的视频生成尝试。

也有旗帜鲜明的反对者。“百川不会做Sora。”今年5月,百川智能CEO王小川就在“智能涌现”的专访中就表示。他认为,Sora并不在AGI(通用人工智能),即提升模型智力水平的主线上。

也有在探索后暂缓的厂商。最受关注的月之暗面,6月被媒体报道在海外试水两个新应用——角色扮演应用Ohai,以及AI音乐/视频生成应用Noisse。据“智能涌现”了解,这两个应用因为效果不达预期,后来并没有被单独立项,停留在试验阶段。

而在近期的“Kimi探索版”上线后,月之暗面还将发布多模态相关能力。不过,还不确定是否会有视频生成相关功能。

直到国庆前后,视频生成领域迎来两位重磅玩家:9月24日,字节跳动低调甩出了Seaweed和Pixeldance两款产品。

而紧接着的10月5日,Meta放出的系列模型Movie Gen,则又一次炸场。

图片

图注:2024上半年,全球已涌现了不少视频模型和产品,在中国尤其热闹

在语言模型迭代放缓的当下,视频生成模型似乎成了那个更有希望的AI应用新方向——大厂也还没形成垄断。对初创公司而言,这更是一次重要选择——到底要不要做Sora?

图片分叉路,要选哪条?

首先需要厘清的一个概念是,大厂、创业公司如今普遍标配的“多模态能力”(图像、语音等模态),以及类Sora的视频生成模型,并不是同样的东西。

“多模态能力,相当于是让模型能够理解图像、音频、视频等形式,但还是基于大语言模型延伸的能力。”一位大模型从业者对“智能涌现”分析,“将视频、图片、语音输入到大模型里,是基于大语言模型做‘理解’;但生成视频,则是依靠视频模型的能力。”

“类Sora”产品所依靠的视频生成模型,借鉴了大语言模型(LLM)中Transformer架构等技术思路,但和大语言模型(LLM)是两种不同的事物。

这意味着,如果要做一个视频生成模型,相当于另起炉灶,从0到1重新搭模型。

可以肯定的是,要做视频生成模型,当前还注定是少数人的游戏。

再造一个“Sora”,成本高昂。

据Meta的数据,Movie Gen用了6144张H100进行训练,视频模型参数达到30B(300亿)。在国内,拥有此等训练资源的厂商,本就不多。

而眼下,国内大模型厂商基本都已经上齐了多模态能力,至于是否做视频生成方向,还处于摇摆状态。

对拥有短视频相关业务的大厂,如抖音、快手等,视频生成是不能输的方向。据硅星人报道,对可灵的大力投入,一个重要动力是为了服务于快手的内容生态——2023年,首次在快手发布短视频的创作者就有1.38亿。

另外,快手做可灵,也意在服务快手的电商生态,比如为MCN、电商商家提供商品相关的AI内容生成服务。

但对初创玩家来说,在AI应用方向不明朗的当下,大家都在忐忑地摸着石头过河。

有玩家早早坚定了自己选择的道路。一开始打定不做Sora的百川,在2024年全力落地医疗场景,并推出了自己的医疗AI助手。

专门做视频生成的垂类厂商,也拿到了阶段性的结果,比如生数科技旗下的Vidu,在8月上线后,两个月内,VIdu的月访问量就已经达到552万。

但能不能把新故事讲成自己的,还得看各家的真本事。视频生成领域的技术路线尚未收敛,市面上的顶级视频生成模型几乎都选择了闭源。

这意味着,玩家们需要投入真金白银去试错——选什么技术路线和应用场景,才决定AGI大潮退去后,谁能真正留在岸上。

图片

文本太卷,Agent太远,

视频生成刚刚好?

OpenAI的Sora尚且没有放开使用,为什么视频生成如今成了国内的香饽饽?

以GPT-4作为参考标杆,国内头部的大模型厂商和大厂,在今年上半年都已慢慢接近GPT-4的水平,在OpenAI后续发布GPT-4o后,厂商也都陆续跟进了多模态能力。

但GPT-5迟迟未出,意味着在语言模型上,国内大模型的厂商基本难以拉开代际差距。

另一方面,大模型跑了一年多,其落地和商业化成果还未让市场信服。

在国内,大部分的AI应用方向都陷入叫好不叫座的困境。细数这两年火过的AI应用方向——ChatBot/情感陪伴等类ChatGPT产品、文生图、AI音乐、AI搜索,都迅速陷入同质化竞争的局面。

以国内头部的AI应用举例,豆包、Kimi等在今年上半年经历了激烈的投流竞争,用户数最高已达千万级别,但商业化情况并不理想。

不少从业者认为,应用难以商业化,很大程度要归结到文本模型迭代放缓,能力提升变慢。这也让一些更遥远的,能完成更多复杂任务的方向——比如Agent(智能体),越发模糊。

“智能涌现”了解到的一个例证是,字节旗下的AI开发平台扣子的Agent业务,在今年就经历了一轮缩减。

而近期圈内热切讨论的放弃大模型的预训练阶段,意味着不少厂商要走下追求的牌桌,转向AI应用落地,继续活下去。

厂商们需要新故事,视频生成方向则刚好站在中间点:既有足够技术和开发壁垒,但壁垒不会高到玩家摸不着,前景也足够大。

“语言模型的商业化就不提了,初创公司至少还要想象力。如果头部初创公司不转其他应用方向,就什么都没有,怎么撑起这么高的估值?”一位从业者直言。

2023年,不少做视频生成的创业者都对“智能涌现”表示,如今的视频生成领域可类比处在GPT-2到GPT3阶段。这意味着比ChatGPT的效果稍稍略落后,比语言模型所处的发展阶段早很多。

但Sora发布后,视频生成领域已经看到了GPT-3.5阶段的曙光。“这个阶段意味着,让你看到这个赛道的巨大潜力,市场愿意投入。”一位从业者对“智能涌现”表示。

共识摇摆的背后,源于赛道仍处发展早期,还有不少探索机会。比如,刚刚发布的Meta Movie Gen。在Transformer架构基础上,使用了Flow Matching(流匹配技术),这就与Sora的路线有很大不同,也意味着整个赛道的技术路线尚未收敛。

在国内,这个方向上也有得天独厚的短视频生态,视频生成方向的模型探索,也因此站在全球前沿。

6月爆火的快手视频模型“可灵”,就是典型例子——在大厂中,快手并不是AI人才、资源的制高点,但经历短短数月攻坚,快手可灵仅凭20多人的小团队,硬是在一众大模型厂商中闯出一条路,可灵凭借怀旧照片等一系列策划,热度一度传到大洋彼岸的硅谷。

图片

Stability.ai创始人转发可灵产品,评论“中国在AI上有着巨大优势” 来源:X

并且,视频生成方向还处在早期,算力成本仍处高位,一旦开始商业化,付费已是必选项。

在海外,视频生成已经走出了不同路线——头部的视频厂商Runway和Pika都专注做B端的生产力工具,Runway甚至已经打入好莱坞,达成了不少影视界的合作。在国内,可灵、Minimax等厂商也早早开始了付费尝试。

归根结底,很少人愿意错过这个方向。毕竟,视频已经取代文字,成为互联网上流量占比最高的信息内容。据Sandvine《2023全球互联网现象报告》,2022年全球互联网视频服务,就占到总流量的65.93%。

随着视频生成技术不断成熟,这也许不会只是大厂的游戏。初创公司可以结合技术,以及巧妙的运营手段,快速闯出一条自己的道路。

图片

来源:Pika

硅谷视频生成明星初创Pika,就摸到了不少流量密码:一出道,就选择先在开发者聚集的Discord运营,并且迅速获得50万用户。

到了今年10月,Pika新发布的1.5模型中,还带来了更多社交运营玩法:内置了充气、融化、爆炸、捏揉、压扁等模板,引来全球网友“整活儿”,服务器甚至因为涌入的用户太多而崩溃——有网友就不禁回忆起当年:与早期的TikTok冷启动时期如出一辙。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

相关文章:

2024年,每一个大模型都躲不过容嬷嬷和紫薇

2024年还不上视频生成的大模型公司,还能上桌吃饭吗? 连最积极搞AI的李彦宏,在这件事上也迟疑了。 “百度不碰Sora类的视频生成方向。”李彦宏在近期的2024年Q3总监会上说道。原因在于,10年、20年都可能难以商业化应用。 从Open…...

SpringBoot之RedisTemplate基本配置

公司要求redis配置密码使用密文,但是程序使用的是spring默认的redisTemplate,那么就需要修改配置实现密码加解密。 先搞个加密工具类: public class SM2Encryptor {// 加密,使用公钥public static String encryptText(String pub…...

SparseRCNN 模型,用于目标检测任务

SparseRCNN 模型,用于目标检测任务 import logging import math from typing import Listimport numpy as np import torch import torch.distributed as dist import torch.nn.functional as F from torch import nn #项目完整代码下载链接:https://download.csdn.net/downl…...

【AIGC】第一性原理下的ChatGPT提示词Prompt设计:系统信息与用户信息的深度融合

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯第一性原理与ChatGPT提示词Prompt设计应用第一性原理于ChatGPT提示词Prompt设计系统信息和用户信息的融合实际应用结论 💯系统信息与用户信息的定义和重要性系…...

DeepSpeed性能调优与常见问题解决方案

1. 引言 什么是DeepSpeed? DeepSpeed是由微软开源的深度学习训练优化库,旨在帮助研究人员和工程师高效地训练大规模深度学习模型。基于PyTorch框架,DeepSpeed提供了一系列先进的技术,如ZeRO(Zero Redundancy Optimiz…...

【GESP】C++一级练习BCQM3052,鸡兔同笼

GESP一级知识点:for循环和if的应用。 题目题解详见:https://www.coderli.com/gesp-1-bcqm3052/ 【GESP】C一级练习BCQM3052,鸡兔同笼 | OneCoderGESP一级知识点:for循环和if的应用。https://www.coderli.com/gesp-1-bcqm3052/ …...

Android面试之5个性能优化相关的深度面试题

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”,和我一起每天进步一点点 面试题目1:如何优化Android应用的启动速度? 解答: 优化Android应用的启动速度可以从以下几个方面入手: 1、 减少主线程工…...

R语言机器学习算法实战系列(六)K-邻近算法 (K-Nearest Neighbors)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍教程下载数据加载R包导入数据数据预处理数据描述数据切割调节参数构建模型预测测试数据评估模型模型准确性混淆矩阵模型评估指标ROC CurvePRC Curve保存模型总结系统信息介绍 K-邻…...

FPGA图像处理之构建3×3矩阵

免责声明:本文所提供的信息和内容仅供参考。作者对本文内容的准确性、完整性、及时性或适用性不作任何明示或暗示的保证。在任何情况下,作者不对因使用本文内容而导致的任何直接或间接损失承担责任,包括但不限于数据丢失、业务中断或其他经济…...

【Linux】进程间通信(匿名管道)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:https://blog.csdn.net/qinjh_/category_12625432.html 目录 进程间通信目的 进程间通信发展 进程间通信分类 管道 System V IPC POSI…...

memset()函数的实现

memset()函数的实现 _CRTIMP void* __cdecl memset (void*, int, size_t); memset()函数的实现 文章目录 memset()函数的实现memset()函数 memset()函数 _CRTIMP void* __cdecl memset (void*, int, size_t);void* memset(void* src, int val, size_t count) {char *char_src…...

STM32CUBEIDE FreeRTOS操作教程(七):queue队列

STM32CUBEIDE FreeRTOS操作教程(七):queue队列 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件,不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开发板为例&#xff…...

类型转换与字符串操作:数据的灵活变形!

Java中的隐式与强制类型转换:让你轻松驾驭数据 在编程的世界中,数据的类型如同游戏中的角色,赋予它们不同的特性与能力。而在Java中,隐式类型转换与强制类型转换就像是两把利剑,帮助我们在这个复杂的世界中游刃有余。…...

动态规划18:188. 买卖股票的最佳时机 IV

动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:188.…...

YOLOv8改进 - 注意力篇 - 引入ShuffleAttention注意力机制

一、本文介绍 作为入门性篇章,这里介绍了ShuffleAttention注意力在YOLOv8中的使用。包含ShuffleAttention原理分析,ShuffleAttention的代码、ShuffleAttention的使用方法、以及添加以后的yaml文件及运行记录。 二、ShuffleAttention原理分析 ShuffleA…...

基于Multisim的8路彩灯循环控制电路设计与仿真

1)由八个彩灯LED的明暗构成各种彩灯图形; 2)彩灯依次显示的图形: 彩灯从左至右渐亮至全亮(8个CP) 彩灯从左至右渐灭至全灭(8个CP) 彩灯从右至左渐亮至全亮(8个CP) 彩灯从右至左渐灭至全灭(8个CP) 彩灯全亮(1个CP) 彩灯全灭(1个CP) 彩灯全亮(1个CP) 彩灯全灭(1个CP) 3)彩灯图形循…...

完整的模型训练套路 pytorch

**前置知识: 1、 (1).train():将模型设置为训练模式 (2).eval():将模型设置为评估模式 不写也可以(只对特定网络模型有作用,如含有Dropout的) 2、 with…...

2024年十大前沿图像分割模型汇总:工作机制、优点和缺点介绍

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…...

Notepad++将搜索内容所在行选中,并进行复制等操作

背景 Notepad在非常多的数据行内容中,按照指定内容检索,并定位到具体行,而后对内容行的数据进行复制、剪切、删除等处理动作。 操作说明 检索并标记所在行 弹出搜索框:按下 Ctrl F。 输入查找字符串:在搜索框中输入要…...

[Java EE] IP 协议 | NAT 机制 | 路由选择 | MAC 地址 | 域名解析服务

Author:MTingle major:人工智能 Build your hopes like a tower! 目录 一. 初识 IP 协议 IP 协议报头: 二. IP 协议如何管理地址 NAT机制 路由选择 三. 数据链路层(以太网): MAC地址 四. 域名解析系统 一. 初识 IP 协议 IP 协议工作在网络层,其目标是为了在复…...

赋能特大城市水务数据安全高速运算,深圳计算科学研究院YashanDB数据库系统斩获“鼎新杯”二等奖

第三届“鼎新杯”数字化转型应用优秀案例评选结果日前正式公布,深圳计算科学研究院联合深圳市环境水务集团有限公司申报的《深圳环境水务国产数据库YashanDB,赋能特大城市水务数据安全高速运转》案例,经过5个多月的评审,从4000申报…...

RAYDATA链接PGSQL做图表

1.拖一个脚本进去 2.拖一个柱状图进去 3.双击脚本写代码 using System; using System.Collections; using System.Collections.Generic; using System.Linq; using Ventuz.Kernel; using Npgsql; using System.Threading; using System.Threading.Tasks;public class Script…...

UE5里的TObjectPtr TSharedPtr TWeakPtr有什么区别

在 Unreal Engine(UE)编程中,TObjectPtr、TSharedPtr 和 TWeakPtr 都是 指针类型,但它们在生命周期管理和使用场景上有不同的特点。让我们详细分析这些指针的区别和用途。 TObjectPtr TObjectPtr 是 UE5 中引入的新智能指针类型…...

前端--深入理解HTTP协议

HTTP 协议简介 HTTP(HyperText Transfer Protocol,超文本传输协议)是一个应用层协议,用于在客户端(通常是浏览器)和服务器之间传输超文本数据(如 HTML、CSS、JavaScript 等)。它是万…...

线性代数 向量

一、定义 几何定义:向量是一个有方向和大小的量,通常用箭头表示。向量的起点称为原点,终点称为向量的端点。 代数定义:向量是一个有序的数组,通常表示为列向量或行向量。 行向量就是 1*n的形式(行展开&…...

go中阶乘实现时递归及迭代方式的比较

package mainimport ("fmt""time""math/big" )// 使用递归和 big.Int 计算阶乘 func FactorialRecursive(n *big.Int) *big.Int {if n.Cmp(big.NewInt(0)) 0 {return big.NewInt(1)}return new(big.Int).Mul(n, FactorialRecursive(new(big.Int…...

Jupyter notebook中更改字体大小

文章目录 方法一:局部修改方法二:全局修改 Jupyter notebook提供了一个非常方便的跨平台交互代码编译环境,但是单元格的内的代码字体往往显示较小,不利于观看。本人查了很多方法来调整字体,后来发现既不需要更改jupyte…...

关于Ubuntu服务器的时间同步设置以及Linux什么时候开始使用swap虚拟内存

一、关于Ubuntu服务器的时间同步设置 首先我们检查一下服务器的时区设置和当前时间值,获取/etc/timezone 配置以及使用date命令查看当前时间。 rootiZ2ze7n2ynw18p6bs92fziZ:~# cat /etc/timezone Asia/Shanghai rootiZ2ze7n2ynw18p6bs92fziZ:~# date Wed Dec 21 …...

Java Stream API 详解

Java Stream API 详解 1. 什么是 Stream API? Stream API 是 Java 8 引入的一种用于处理集合(如数组、列表)的强大工具。它提供了一种声明性方式处理数据,可以简化代码并提高可读性。Stream 不是数据结构,它只是一种…...

一文了解大模型中的SDK和API

大白话聊SDK和API-知乎 1.智谱AI的SDK和API 以智谱AI为例,智谱AI的SDK是名为zhipuai的Python包,其中包含了用于访问API的接口(如api-key)。在这个框架中,API是SDK的一部分,用于实现与智谱AI服务的交互。 …...