当前位置：首页 > news >正文

Sora后时代文生视频的探索

news 2026/6/2 23:58:07

一、写在前面

按常理，这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过，这类文章已经很多了，我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果，并以此为基础，看看Sora发布后的时代我们能做些什么。

本文涉及的、可尝试的应用地址

[1] Stable Video Diffusion huggingface space（仅支持图生视频）：https://huggingface.co/spaces/multimodalart/stable-video-diffusion
[2] 小诺AI（支持文生视频和图生视频）：微信搜索小程序-小诺AI
[3] Pika（支持文生视频）：https://pika.art/
[4] Open-Sora（支持文生视频）：GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

二、当前视频生成解决方案一览

最近看了很多文生视频的开源构建项目[1]、[4]以及闭源直接应用项目[2]、[3]，一个直观感受是大家对Sora的应用都很期待。Sora发布至今仅一个月，已经有很多可以直接体验的文生视频产品被推出，这里选择几个比较有人气的应用介绍下。

pika

Pika[3]是Sora前产物，它们勇敢地做出了自己的尝试。虽然Sora发布后对Pika的质疑声音越来越大，但毋庸置疑Pika是先行者，而且取得了不错的成绩，而且Pika也在迭代优化中，有了Sora的经验，Pika有可能在之后带给人们更大的惊喜，个人将保持期待。

这里给出一个官网的示例。

Prompt：3d animation, a cute boy is standing in a house, spring festival interior, lunar new year, holiday.

Stable Video Diffusion

Stable Video Diffusion[1]也是Sora前产物，与Pika不同的是SVD是一个开源项目。所以，有一种观点是Sora借鉴了SVD，这种观点有一定的道理。查看Sora的report，有很多细节如DiT与SVD是一致的。而且SVD在前，说借鉴也没问题。个人觉得SVD是目前视频生成质量最高的解决方案，它能接受的输入形式是image。这里是一个示例，输入的image是一个静态的发射中的火箭，而输出的视频将整个发射过程动态化呈现。

图片输入 rocket

视频输出 rocket（博客不能放视频，这里是将video抽帧呈现的gif）

我们探讨一个问题，SVD的执行过程因为缺少语义的指导，所以它的任务只是将其“动态化”，这种“动态化”有可能是违背物理规律的。通俗地讲，上面的火箭也有可能是水平运动的（我自己的尝试中出现过这种情况），并没有一种途径去指定image中的物体的具体轨迹，指定如何运动才是正确的，这里的运动形式是单纯地由模型在数据集中学习的。

SVD的后续工作应该是加入text，提供更清晰的语义。

Open-Sora

Open-Sora[4]是Sora后产物，是完全根据Sora公布的report复现的开源项目。以下引自Open-Sora项目首页的简介。

Open-Sora项目是一项致力于高效制作高质量视频，并使所有人都能使用其模型、工具和内容的计划。通过采用开源原则，Open-Sora 不仅实现了先进视频生成技术的低成本普及，还提供了一个精简且用户友好的方案，简化了视频制作的复杂性。通过 Open-Sora，我们希望更多开发者一起探索内容创作领域的创新、创造和包容。Open-Sora 项目目前处在早期阶段，并将持续更新。

这里也给出一些示例，直观感受下效果。

Prompt：A serene night scene in a forested area. The first frame shows a tranquil lake reflecting the star-filled sky above. The second frame reveals a beautiful sunset, casting a warm glow over the landscape. The third frame showcases the night sky, filled with stars and a vibrant Milky Way galaxy. The video is a time-lapse, capturing the transition from day to night, with the lake and forest serving as a constant backdrop. The style of the video is naturalistic, emphasizing the beauty of the night sky and the peacefulness of the forest.

Prompt：A soaring drone footage captures the majestic beauty of a coastal cliff, its red and yellow stratified rock faces rich in color and against the vibrant turquoise of the sea. Seabirds can be seen taking flight around the cliff's precipices. As the drone slowly moves from different angles, the changing sunlight casts shifting shadows that highlight the rugged textures of the cliff and the surrounding calm sea. The water gently laps at the rock base and the greenery that clings to the top of the cliff, and the scene gives a sense of peaceful isolation at the fringes of the ocean. The video captures the essence of pristine natural beauty untouched by human structures.

Prompt：The video captures the majestic beauty of a waterfall cascading down a cliff into a serene lake. The waterfall, with its powerful flow, is the central focus of the video. The surrounding landscape is lush and green, with trees and foliage adding to the natural beauty of the scene. The camera angle provides a bird's eye view of the waterfall, allowing viewers to appreciate the full height and grandeur of the waterfall. The video is a stunning representation of nature's power and beauty.

Prompt：A serene underwater scene featuring a sea turtle swimming through a coral reef. The turtle, with its greenish-brown shell, is the main focus of the video, swimming gracefully towards the right side of the frame. The coral reef, teeming with life, is visible in the background, providing a vibrant and colorful backdrop to the turtle's journey. Several small fish, darting around the turtle, add a sense of movement and dynamism to the scene. The video is shot from a slightly elevated angle, providing a comprehensive view of the turtle's surroundings. The overall style of the video is calm and peaceful, capturing the beauty and tranquility of the underwater world.

小诺AI

小诺AI[3]是舒笔科技推出的一款微信小程序，是基于SVD优化的文生视频产品。在SVD的基础上，小诺AI集成了支持文字Prompt输入的功能，打通了文生视频的pipeline，使用户所写即所得。

该产品目前只支持英文输入的功能，不过没关系，小诺AI同时集成了Prompt咒语生成功能，可将中文Prompt翻译。同时，如果也可以利用该功能对Prompt进行扩写。

这里是一些示例的展示。

Prompt：The sun is setting by the mountain.

Prompt：breathtaking selfie photograph of astronaut floating in space, earth in the background. award-winning, professional, highly detailed

Prompt：breathtaking night street of city, neon lights. award-winning, professional, highly detailed

Prompt：anime artwork an empty classroom. anime style, key visual, vibrant, studio anime, highly detailed

Prompt：a beautiful room

Prompt：anime artwork an island surrounding by the sea, dramatic, anime style, key visual, vibrant, studio anime, highly detailed

Prompt：concept art of a warrior with a sword, clouds. digital artwork, illustrative, painterly, matte painting, highly detailed, cinematic composition

Prompt：16-bit pixel art, a cozy cafe side view, a beautiful day

Sora后时代文生视频的探索

一、写在前面按常理，这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过，这类文章已经很多了，我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果，并以此为基础，看看Sora发布…...

编程日记 2024/3/21 8:57:49

指南：在各主流操作系统上安装与配置Apache Tomcat

指南：在各主流操作系统上安装与配置Apache Tomcat Apache Tomcat作为一款广受欢迎的开源Java Servlet容器，为用户提供了一个纯Java环境下的Web服务器和Servlet容器。本文将详细介绍如何在不同的操作系统上安装Apache Tomcat，并进行基本的配置…...

编程日记 2024/3/21 8:55:47

物联网的介绍

物联网（Internet of Things，简称IoT）是指通过互联网将物理设备、传感器、通信设备和软件系统相互连接，形成一个网络化的系统。它可以实现设备之间的数据交换、信息共享和远程控制，使得物理世界与数字世界紧密结合。物…...

编程日记 2024/3/21 8:54:46

目标检测——YOLOR算法解读

论文：YOLOR-You Only Learn One Representation: Unifified Network for Multiple Tasks 作者：Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao 链接：https://arxiv.org/abs/2105.04206 代码：https://github.com/WongKinYiu/yolo…...

编程日记 2024/3/21 8:52:44

NVIDIA NCCL 源码学习（十三）- IB SHARP

背景之前我们看到了基于ring和tree的两种allreduce算法，对于ring allreduce，一块数据在reduce scatter阶段需要经过所有的rank，allgather阶段又需要经过所有rank；对于tree allreduce，一块数据数据在reduce阶段要上行…...

编程日记 2024/3/21 8:51:43

Spark-Scala语言实战（4）

在之前的文章中，我们学习了如何在scala中定义无参，带参以及匿名函数。想了解的朋友可以查看这篇文章。同时，希望我的文章能帮助到你，如果觉得我的文章写的不错，请留下你宝贵的点赞，谢谢。 Spark-Scala语言…...

编程日记 2024/3/21 8:50:41

ffmpeg不常用命令整理

最近做了许多有关音视频方面的工作，接触了一些不常用的命令，整理分享出来。 1.剪辑视频 ffmpeg -ss 1 -to 4 -accurate_seek -i input.mp4 -c:v copy output.mp4指定从视频中的第1秒开始，到第4秒结束的部分剪辑。 ss：指定开始时…...

编程日记 2024/3/21 8:49:40

怎么理解面向对象？一文带你全面理解

文章目录 1、类和对象（1）面向过程和面向对象初步认识（2）类的引入（3）类的定义（4）类的访问限定符及封装4.1 访问限定符4.2 封装 （5）类的作用域（6&am…...

编程日记 2024/3/21 8:48:37

神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数）

目录一、神经网络简介二、深度学习要解决的问题三、深度学习的应用四、计算机视觉五、计算机视觉面临的挑战六、得分函数七、损失函数八、前向传播九、反向传播十、神经元的个数对结果的影响十一、正则化与激活函数一、神经网络简介神经网络是一种有监督…...

编程日记 2024/3/21 8:45:34

Tomcat的Host Manager页面403的原因和解决办法

目录背景原因: 解决方案背景一直报错 403 Access Denied You are not authorized to view this page.By default the Host Manager is only accessible from a browser running on the same machine as Tomcat. If you wish to modify this restriction, youll need to…...

编程日记 2024/3/21 8:43:32

零基础学华为ip认证难吗？华为认证费用多少？

零基础学华为ip认证难吗？ 首先，零基础的学习者可以通过系统的学习，逐步掌握网络基础知识和技能。可以通过阅读教材、参加培训课程、进行实践操作等方式，不断提升自己的知识和技能水平。同时，学习者还可以利用华为提供的…...

编程日记 2024/3/21 8:42:31

[C语言]——内存函数

目录一.memcpy使用和模拟实现（内存拷贝） 二.memmove 使用和模拟实现三.memset 函数的使用（内存设置） 四.memcmp 函数的使用 C语言中规定： memcpy拷贝的就是不重叠的内存memmove拷贝的就是重叠的内存但是在VS202…...

编程日记 2024/3/21 8:41:30

QGIS编译（跨平台编译）056：PDAL编译（Windows、Linux、MacOS环境下编译）

点击查看专栏目录文章目录 1、PDAL介绍2、PDAL下载3、Windows下编译4、linux下编译5、MacOS下编译1、PDAL介绍 PDAL（Point Data Abstraction Library）是一个开源的地理空间数据处理库，它专注于点云数据的获取、处理和分析。PDAL 提供了丰富的工具和库，用于处理激光扫描仪、…...

编程日记 2024/3/21 8:38:27

计算机三级——网络技术（综合题第二题）

路由器工作模式用户模式当通过Console或Telnet方式登录到路由器时，只要输入的密码正确，路由器就直接进入了用户模式。在该模式下，系统提示符为一个尖括号(>)。如果用户以前为路由器输入过名称，则该名称将会显示在尖指号的前…...

编程日记 2024/3/21 8:36:25

Python 深度学习第二版（GPT 重译）（二）

四、入门神经网络：分类和回归本章涵盖您的第一个真实世界机器学习工作流示例处理矢量数据上的分类问题处理矢量数据上的连续回归问题本章旨在帮助您开始使用神经网络解决实际问题。您将巩固从第二章和第三章中获得的知识，并将所学应用于三个新…...

编程日记 2024/3/21 8:34:22

【Redis】Redis常见原理和数据结构

Redis 什么是redis redis是一款基于内存的k-v数据结构的非关系型数据库，读写速度非常快，常用于缓存，消息队列、分布式锁等场景。 redis的数据类型 string：字符串缓存对象，分布式ID，token，se…...

编程日记 2024/3/21 8:33:20

3个Tips，用“AI”开启新生活

相信最近，很多朋友们都回归到了忙碌的生活节奏中。生活模式的切换，或多或少会带来身体或情绪状况的起伏。新技术正在为人们生活的方方面面带来便利。3个小Tips或许能让你也从新技术中获益，从身到心，用“AI”开启新生活。关”A…...

编程日记 2024/3/21 8:30:17

【ROS | OpenCV】在ROS中实现多版本OpenCV、cv_bridge共存：安装与配置指南

在 Ubuntu 20.04 中，ROS Noetic 默认安装的 OpenCV 版本为 4.2.0。如果您需要确认系统中已安装的 OpenCV 版本，可以使用以下命令： sudo find / -iname "*opencv*"然而，许多开源算法都是基于 OpenCV 3 编写的&#xff0…...

编程日记 2024/3/21 8:29:16

Docker容器化技术（docker-compose示例:部署discuz论坛和wordpress博客，使用adminer管理数据库）

安装docker-compose [rootservice ~]# systemctl stop firewalld [rootservice ~]# setenforce 0 [rootservice ~]# systemctl start docker[rootservice ~]# wget https://github.com/docker/compose/releases/download/v2.5.0/docker-compose-linux-x86_64创建目录 [rootse…...

编程日记 2024/3/21 8:28:15

Sora后时代文生视频的探索

一、写在前面

本文涉及的、可尝试的应用地址

二、当前视频生成解决方案一览

pika

Stable Video Diffusion

Open-Sora

小诺AI

相关文章：

Sora后时代文生视频的探索

指南：在各主流操作系统上安装与配置Apache Tomcat

物联网的介绍

目标检测——YOLOR算法解读

NVIDIA NCCL 源码学习（十三）- IB SHARP

Spark-Scala语言实战（4）

ffmpeg不常用命令整理

怎么理解面向对象？一文带你全面理解

神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数）

Tomcat的Host Manager页面403的原因和解决办法

零基础学华为ip认证难吗？华为认证费用多少？

[C语言]——内存函数

QGIS编译（跨平台编译）056：PDAL编译（Windows、Linux、MacOS环境下编译）

计算机三级——网络技术（综合题第二题）

Python 深度学习第二版（GPT 重译）（二）

【Redis】Redis常见原理和数据结构

3个Tips，用“AI”开启新生活

【ROS | OpenCV】在ROS中实现多版本OpenCV、cv_bridge共存：安装与配置指南

Docker容器化技术（docker-compose示例:部署discuz论坛和wordpress博客，使用adminer管理数据库）

微分学＜6＞——Taylor公式

保姆级教程：在CentOS 7上用达梦8搭建DCA练习环境（附ulimit、VNC、ODBC全配置）

Goframe项目实战：从数据库表到API接口的全链路开发指南（含避坑点）

Obsidian PDF++：如何在Obsidian中实现PDF与笔记的无缝双向链接？

浅聊26上半年软考架构师

别再死记硬背Payload了！我用XSS-Game靶场，带你拆解18种过滤规则背后的绕过逻辑

基于ESP32的AIS转WiFi转换器：实现NMEA 0183数据无线传输

人工智能的伦理与安全：这3个问题，软件测试从业者必须重视

UE5项目打包后RenderTarget导出图片全黑？手把手教你解决伽马校正与资产打包问题

LeagueAkari：基于LCU接口的英雄联盟客户端自动化工具深度解析

独家首发｜DeepSeek官方未公开的IP检查API接口文档（含沙箱环境调用密钥获取路径）