当前位置: 首页 > news >正文

市场主流 AI 视频生成技术的迭代路径

     AI视频生成技术的迭代路径经历了从GAN+VAE、Transformer、Diffusion Model到Sora采用的DiT架构(Transformer+Diffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展,也为未来的应用场景提供了更多的可能性和灵活性

1 GAN+VAE 阶段 (2016-2021)

    GAN 用于视频生成在 2016 年至 2021 年较为火热,代表模型如 Temporal Generative Adversarial Nets (TGAN) 和 MoCoGAN,它们通过不同的网络架构和训练方法来改进 GAN 在视频生成上的性能。此外,Dual Video Discriminator GAN (DVD-GAN) 通过使用空间和时间判别器的分解来提高视频生成的复杂性和保真度。

GAN 生成对抗网络运作原理

  • GAN (生成对抗网络): 这是最早用于视频生成的模型之一,其核心思想是训练一个生成器和一个判别器,通过对抗训练生成逼真的视频。
  • VAE (变分自编码器): VAE 是一种自编码器,可以将输入数据压缩成低维的潜在空间表示,并从潜在空间中解码生成新的数据。
  • GAN+VAE 融合: 将 GAN 和 VAE 结合,利用 GAN 生成高质量的图像,并利用 VAE 将图像解码成视频。

2 Transformer 阶段 (2018-2023)

Transformer 模型是一种基于注意力机制的深度学习模型,它在处理序列数据方面表现出色,尤其在自然语言处理领域取得了显著的成果。它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)。

2.1 优点

  • 并行处理序列中的所有元素:与传统的循环神经网络(RNN)相比,Transformer 模型能够并行处理序列中的所有元素,这大大提高了计算效率。RNN 模型需要按照序列的顺序进行计算,每个时间步的处理依赖于前一个时间步的输出,这限制了并行计算的可能性。
  • 可扩展性:Transformer 模型能够通过堆叠多个注意力层来增加模型的复杂度和容量,从而适应不同任务的需求。这种堆叠方式使得模型能够处理更长的序列,并学习更复杂的模式。
  • 泛化能力:Transformer 模型除了在语言任务中表现出色,还可以泛化到其他类型的序列建模任务,如图像处理、视频分析等。这种泛化能力使得模型能够应用于更广泛的领域,具有更高的实用性。
  • 预训练和微调:Transformer 模型通常先在大量数据上进行预训练,再针对特定任务进行微调,这使得模型能够快速适应新任务。预训练可以使得模型学习到通用的语言特征,微调则可以针对特定任务进行优化。
  • 适应长序列数据:Transformer 模型在处理诸如语音信号、长时间序列数据等任务时具有优势,因为它能够避免传统模型存在的梯度消失或梯度爆炸问题。这种特性使得模型能够处理更长的序列,并学习更复杂的模式。

2.2

  • 参数效率相对较低: 参数数量随输入序列长度的增加而增加,增加了训练时间和成本。
  • 对输入数据的敏感性较高: 模型依赖于输入数据的全局信息进行建模,在处理复杂任务时,对输入数据的细微变化可能会对模型的输出结果产生较大影响。
  • 难以处理时空动态变化: 模型基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等具有动态变化特性的任务时,需要结合其他技术来提高模型的性能。

2.3 在视频生成中的应用

  • VideoGPT: 使用 VQ-VAE 和 Transformer 架构生成视频,能够适应动作条件,生成高保真度的视频。
  • NUWA 女娲: 采用 3D 变换器编码器-解码器框架,并使用 VQ-GAN 视觉标记 3D tokens,生成图像、视频以及视频预测。
  • CogVideo: 采用多帧率层次化训练策略和双通道注意力机制,生成高分辨率、高帧率、高一致性的视频。
  • Phenaki: 使用因果注意力机制生成可变长度视频,并使用预训练的 T5X 生成文本嵌入,生成视频。

3 扩散模型阶段 (2018-2023)

扩散模型是一种生成模型,它通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据。扩散模型可以分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)和随机微分方程(SDE)。尽管它们在数学框架上略有不同,但它们的核心思想是一致的,即通过添加和去除噪声来生成新的数据。

3.1 优点

  • 无需大量标注数据: 扩散模型可以使用未标记的数据进行训练,这使得它们在处理一些数据量较少的领域时具有优势。
  • 生成高质量的图像: 扩散模型能够生成高质量的图像,甚至能够生成逼真的图像。
  • 可扩展性: 扩散模型可以扩展到其他模态,例如文本、音频和视频。

3.2 缺点

  • 训练时间较长: 扩散模型的训练时间通常较长,因为它们需要添加和去除噪声。
  • 对计算资源要求高: 扩散模型的训练需要大量的计算资源,这使得它们在资源受限的环境中的应用受到限制。
  • 生成结果的多样性有限: 扩散模型生成的结果可能缺乏多样性,因为它们通常偏向于生成与训练数据相似的图像。

3.3 扩散模型在视频生成中的应用

  • Gen-1: 将潜在扩散模型扩展到视频生成,无需额外训练和预处理。
  • Gen-2: 允许使用任意起始帧,通过 I2V 方式生成视频,并支持运动画笔、相机控制等功能。

4 DiT 阶段 (2023-至今)

结合 Transformer 和扩散模型,在潜在空间中使用 Transformer 处理图像数据块,模拟数据的扩散过程以生成高质量的图像。

4.1 优点

  • 高效: DiT 模型在潜在空间而非像素空间中训练扩散模型,这提高了计算效率。
  • 灵活: DiT 模型可以使用不同的 Transformer 块变体来处理条件输入,例如噪声时间步长、类别标签等。
  • 可扩展: DiT 模型的性能随着模型大小和输入 token 数量的增加而提升。
  • 简化架构: DiT 模型证明了在扩散模型中,传统的 U-Net 架构并不是必需的,可以被 Transformer 替代。

4.2 DiT 在视频生成中的应用

  • WALT (Window Attention Latent Transformer): 使用 Transformer 架构,在共享潜在空间中联合压缩图像和视频,实现跨模态生成。
  • Sora: 基于 DiT 架构,生成视频质量高,可进行多种编辑和扩展操作。
  • 可灵: 采用 DiT 架构,生成视频效果优秀,可进行视频续写等操作。

更多内容详见2024生成式AI视频行业发展现状国内外龙头及未来发展方向分析报告

相关文章:

市场主流 AI 视频生成技术的迭代路径

AI视频生成技术的迭代路径经历了从GANVAE、Transformer、Diffusion Model到Sora采用的DiT架构(TransformerDiffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展&…...

移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——1.c++入门(2)

1. 函数重载 C⽀持在同⼀作⽤域中出现同名函数&#xff0c;但是要求这些同名函数的形参不同&#xff0c;可以是参数个数不同或者 类型不同。这样C函数调⽤就表现出了多态⾏为&#xff0c;使⽤更灵活。C语⾔是不⽀持同⼀作⽤域中出现同 名函数的。 #include<iostream> u…...

【Python系列】深入理解 Python 中的 `nonlocal` 关键字

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

Flask目录结构路由重定向简单实例讲解——轻量级的 Python Web 框架

假设一个flask目录结构如下&#xff1a; my_flask_app/ │ ├── app.py ├── routes/ │ ├── __init__.py │ ├── ZhejiangProvince/ │ │ ├── __init__.py │ │ ├── la.py │ │ └── el.py │ ├── GuangdongProvince/ │ │ ├…...

破解PyCharm插件更新难题:让IDE焕发新生

破解PyCharm插件更新难题&#xff1a;让IDE焕发新生 PyCharm作为业界领先的集成开发环境&#xff08;IDE&#xff09;&#xff0c;其丰富的插件生态是其强大功能的重要来源。然而&#xff0c;插件无法更新的问题可能会困扰许多用户&#xff0c;影响开发体验。本文将详细介绍如…...

cmake常用命令学习

1.include https://blog.csdn.net/qq_38410730/article/details/102677143 CmakeLists.txt才是cmake的正统文件&#xff0c;而.cmake文件是一个模块文件&#xff0c;可以被include到CMakeLists.txt中。 include指令一般用于语句的复用&#xff0c;也就是说&#xff0c;如果有…...

K8S可视化管理平台KubeSphere

什么是 KubeSphere &#xff1f; KubeSphere 是一款开源项目&#xff0c;在目前主流容器调度平台 Kubernetes 之上构建的企业级分布式多租户容器管理平台&#xff0c;提供简单易用的操作界面以及向导式操作方式&#xff0c;在降低用户使用容器调度平台学习成本的同时&#xff…...

Bugku-CTF-聪明的php

pass a parameter and maybe the flag files filename is random :> 传递一个参数&#xff0c;可能标记文件的文件名是随机的: 于是传一下参&#xff0c;在原网页后面加上/?a1,发现网页出现了变化 3.传入参数&#xff0c;一般情况下是文件包含&#xff0c;或者命令执行&…...

【MySQL进阶】MySQL主从复制

目录 MySQL主从复制 概念 主从形式 一主多从 多主一从 双主复制 主从级联复制 主从复制原理 三个线程 两个日志文件 主从复制的主要工作模式 异步复制 半同步复制 全同步复制 MySQL主从复制 概念 MySQL主从复制是一种数据分布机制&#xff0c;允许从一个数据库服…...

本地部署文生图模型 Flux

本地部署文生图模型 Flux 0. 引言1. 本地部署1-1. 创建虚拟环境1-2. 安装依赖模块1-3. 创建 Web UI1-4. 启动 Web UI1-5. 访问 Web UI 0. 引言 2024年8月1日&#xff0c;blackforestlabs.ai发布了 FLUX.1 模型套件。 FLUX.1 文本到图像模型套件&#xff0c;该套件定义了文本到…...

谷粒商城实战笔记-127-全文检索-ElasticSearch-整合-测试复杂检索

文章目录 一&#xff0c;使用Elasticsearch的Java RESTHighLevel Client完成复杂的查询请求1. 创建检索请求 (SearchRequest)2. 构造检索条件 (SearchSourceBuilder)3. 执行检索 (SearchResponse)4. 处理解析结果5. 获取聚合信息 二&#xff0c;AI时代的效率提升 一&#xff0c…...

解锁PyCharm:破解依赖库导入之谜

解锁PyCharm&#xff1a;破解依赖库导入之谜 PyCharm作为Python开发者的强大IDE&#xff0c;提供了丰富的功能来简化开发流程。然而&#xff0c;在使用过程中&#xff0c;开发者可能会遇到导入依赖库时出现的错误。本文将深入探讨PyCharm中导入依赖库报错的问题&#xff0c;并…...

JSON-Viewer插件:json格式查看器

npm install vue-json-viewer 2&#xff0c;main.js 引入 import JsonViewer from vue-json-viewer Vue.use(JsonViewer) 3&#xff0c;组件里写入这个组件 <json-viewer:value"textSecond":expand-depth"5"copyableboxedsort></json-viewer…...

HDFS块信息异常,spark无法读取数据

背景&#xff1a;flume数据落盘到hdfs上时&#xff0c;正在写入的文件一般是以.log.tmp结尾的文件&#xff0c;当flume将文件关闭以后将变为&#xff1a;.log 结尾的文件。由于我们使用阿里云的服务器&#xff0c;经常会有个别节点挂掉(进程在&#xff0c;无法通信&#xff0c;…...

TCP协议概述

TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。它由IETF的RFC 793定义&#xff0c;并在各种通信系统中广泛应用&#xff0c;为不同但互连的计算机通信网络的主计算机中的成对进程之…...

SpringSecurity-3(认证和授权+SpringSecurity入门案例+自定义认证+数据库认证)

SpringSecurity使用数据库数据完成认证 5 SpringSecurity使用数据库数据完成认证5.1 认证流程分析5.1.1 UsernamePasswordAuthenticationFilter5.1.2 AuthenticationManager5.1.3 AbstractUserDetailsAuthenticationProvider5.1.4 AbstractUserDetailsAuthenticationProvider中…...

英国AI大学排名

计算机学科英国Top10 “计算机科学与信息系统”学科除了最受关注的“计算机科学”专业&#xff0c;还包括了“人工智能”“软件工程”“计算机金融”等众多分支专业。 1.帝国理工学院 Imperial College London 单以计算机专业本科来讲&#xff0c;仅Computing这个专业&#x…...

渗透测试与高级攻防技术(二)网络安全技术的前沿探讨:渗透测试与高级攻防

文章目录 引言 第一章&#xff1a;入侵检测与防御系统&#xff08;IDS/IPS&#xff09;1.1 IDS与IPS的区别1.2 Cisco IDS/IPS系统 第二章&#xff1a;蜜罐技术2.1 蜜罐技术概述2.2 搭建蜜罐系统2.3 蜜罐技术的优缺点 第三章&#xff1a;社会工程攻击3.1 社会工程攻击概述3.2 社…...

Windows系统下安装mujoco环境的教程【原创】

在学习Mujoco仿真的过程中&#xff0c;我先前是在linux系统下进行的研究与学习&#xff0c;今天来试试看在windows系统中安装mujoco仿真环境。 先前在linux中的一些关于mujoco学习记录的博客&#xff1a;Mujoco仿真【xml文件的学习 3】_mujoco打开xml文件-CSDN博客 下面开始wi…...

【秋招笔试】2024-08-03-科大讯飞秋招笔试题(算法岗)-三语言题解(CPP/Python/Java)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍖 本次题目难度中等偏上,最后一题又是…...

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开&#xff0c;首…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中&#xff0c;CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时&#xff0c;通常会导致应用响应缓慢&#xff0c;甚至服务不可用&#xff0c;严重影响用户体验和业务运行。因此&#xff0c;掌握一套科学有效的CPU飙高问题排查方法&…...

使用Matplotlib创建炫酷的3D散点图:数据可视化的新维度

文章目录 基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例(带样式)应用场景在数据科学和可视化领域,三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统 实现kefu123登录&#xff0c;不允许匿名访问&#xff0c;kefu只能访问/data/kefu目录&#xff0c;不能查看其他目录 创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

A2A JS SDK 完整教程:快速入门指南

目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库&#xff…...

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程&#xff1f; 2. Java创建对象的过程&#xff1f; 3. 对象的生命周期&#xff1f; 4. 类加载器有哪些&#xff1f; 5. 双亲委派模型的作用&#xff08;好处&#xff09;&#xff1f; 6. 讲一下类的加载和双亲委派原则&#xff1f; 7. 双亲委派模…...

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为 原始类型&#xff08;Primitive&#xff09; 和 对象类型&#xff08;Object&#xff09; 两大类&#xff0c;共 8 种&#xff08;ES11&#xff09;&#xff1a; 一、原始类型&#xff08;7种&#xff09; 1. undefined 定…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中&#xff0c;科研绘图是必不可少的&#xff0c;一张好看的图形会是文章很大的加分项。 为了便于使用&#xff0c;本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中&#xff0c;获取方式&#xff1a; R 语言科研绘图模板 --- sciRplothttps://mp.…...