当前位置：首页 > news >正文

AI研报：从Sora看多模态大模型发展

news 2026/5/24 14:54:09

《从Sora看多模态大模型发展》的研报来自浙商证券，写于2024年2月。

这篇报告主要探讨了多模态大模型的发展趋势，特别是OpenAI发布的视频生成模型Sora，以及其对行业发展的影响。以下是报告的核心内容概述：

Sora模型的发布：
- OpenAI于2024年2月16日发布了视频生成模型Sora，该模型能够生成长达1分钟、不同宽高比和分辨率的视频和图片。
- Sora基于Diffusion Transformer技术，结合了视频压缩网络、潜空间patch、直接在原始大小训练和重新标注技术，能够处理图像和视频输入，实现多种视频生成和编辑功能。

视频压缩网络（Video compression network）：减少视觉数据维度。输入原始视频，输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。（同时训练了一个解码器将生成的潜在表征转回原像素空间）
潜空间patch（Spacetime latent patches ）：类比Transformer tokens，推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。
直接在原始图片的大小上训练：过去往往将视频或者图片压缩到固定大小（比如4秒钟、分辨率256*256），Sora直接在原始素材规格上训练。
为视频训练素材生成详细字幕和标注：Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型，然后用它为训练集中的视频生成文本说明。DALL E3中已经使用过，使用GPT将简短prompt转化为详细说明，这些说明会被输入到视频模型中。这可以增强文本理解能力，可以提高文本的保真度和视频的整体质量，使得Sora能够生产准确遵循用户提升的高质量视频。
Sora核心能力：3D一致性、物体持久性、世界交互、模拟数字世界
Sora模型的局限性：虽然能模拟一些基础物理互动，比如玻璃的碎裂，但还不够精确；
其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化；
长视频中存在逻辑不连贯，或者物体会无缘无故出现的现象。

多模态大模型的商业化前景：
- 国内外厂商如谷歌、字节跳动等也在布局多模态大模型领域，预计2024年文生视频将进入商业化探索阶段。
- 高质量数据和底层通用大模型是文生视频能力的关键因素，随着技术的进步，文生视频在时间长度、画面清晰度和内容逼真程度等方面有望实现显著提升。
全球视频内容市场的潜力：
- 据数据显示，2025年全球数字视频内容市场规模有望达到3271.9亿美元，2021-2025年复合年增长率约为13.7%。
- 海外已有Synthesia、Runway等厂商在文生视频领域形成成熟商业方案，应用于企业产品介绍、操作指南、客户服务等场景。
建议关注的标的公司：
- 大模型厂商：科大讯飞、云从科技、微软、谷歌。
- 多模态应用厂商：万兴科技、虹软科技、焦点科技、Adobe。

公司名称	代码	AI+视频相关业务/产品
科大讯飞	002230.SZ	国产大模型龙头，多模态领域技术积累深厚
海康威视	002415.SZ	研发视觉多模态大模型
大华股份	002236.SZ	自研大华星汉大模型
云从科技-UW	688327.SH	国内CV领域龙头厂商之一
焦点科技	002315.SZ	AI外贸虚拟人视频助手
虹软科技	688088.SH	视觉AI开放平台
万兴科技	300624.SZ	AI视频领域龙头，“天幕”大模型
国投智能	300188.SZ	AI视频图像鉴真工作站
当虹科技	688039.SH	AI智能视频解决方案
网达软件	603189.SH	积极推动“大视频+AI"在垂直领域的布局
丝路视觉	300556.SZ	子公司是视频染技术龙头
商汤-W	http://0020.HK	“日日新SenseNova"大模型
拓尔思	300229.SZ	并面向媒体、金融、政务领域、拓天大模型
汉王科技	002362.SZ	笔智能交互、NLP技术、大数据处理、智能人机交互、垂直领域大模型

风险提示：

- AI技术迭代不及预期的风险。

- AI商业化产品发布不及预期的风险。

- 政策不确定性带来的风险。

- 下游市场不确定性带来的风险。

报告还详细分析了多模态AI的核心技术环节、Sora模型的技术路线和应用案例，以及国内外其他厂商的AI视频生成算法及工具。此外，报告对AIGC在视频领域的商业化现状与展望进行了探讨，并预测了千亿级数字视频生成市场的未来潜力。

AI研报：从Sora看多模态大模型发展

相关文章：

AI研报：从Sora看多模态大模型发展

Unity访问安卓(Android)或苹果（iOS）相册

用webpack 构建自己的vue-cli

ZCC6982最大充电电流 2A、升压型 2 节锂电池充电管理器

【机器学习】无监督学习算法之：K均值聚类

为wordpress特定分类目录下的内容添加自定义字段

javaWeb在线考试系统

项目管理商业文件--商业论证与效益管理计划

机器学习揭秘：解锁从理论到实践的每一步！

Kotlin协程CoroutineScope命名空间CoroutineName，Kotlin

HAL STM32G4 +TIM1 3路PWM互补输出+VOFA波形演示

MySQL进阶-----索引的结构与分类

FPGA高端项目：解码索尼IMX390 MIPI相机转HDMI输出，提供FPGA开发板+2套工程源码+技术支持

激光显示技术不断进步国家政策推动行业发展

iOS开发优势解析，费用探究以及软件开发详解

02课程发布模块之部署Nginx

web学习笔记（四十二）

大模型分布式推理ray

Python学习：循环语句

【物联网开源平台】tingsboard二次开发

EASY-HWID-SPOOFER：3分钟学会硬件信息伪装终极指南

Applera1n终极指南：如何在iOS 15-16设备上完整绕过iCloud激活锁

孟加拉语作者画像基准测试：朴素贝叶斯与SVM在低资源语言NLP中的表现分析

从科学哲学到AI：普特南的批判与解释倾向如何映射机器学习预测与可解释性

D2DX技术深度解析：让经典《暗黑破坏神2》在现代PC上重获新生的渲染中间层方案

5分钟快速上手：DDrawCompat让经典游戏在现代Windows上流畅运行的终极方案

机器学习模型评估避坑指南：过调优与数据泄露的识别与防范

如何用本地工具在千万级图片库中快速找到相似图片

随机森林在天文大数据中的应用：高红移类星体高效筛选实战

从博弈论到Python代码：手把手拆解SHAP值计算，告别‘调包侠’