当前位置: 首页 > news >正文

Sora后时代文生视频的探索

一、写在前面

按常理,这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过,这类文章已经很多了,我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果,并以此为基础,看看Sora发布后的时代我们能做些什么。

本文涉及的、可尝试的应用地址

[1] Stable Video Diffusion huggingface space(仅支持图生视频):https://huggingface.co/spaces/multimodalart/stable-video-diffusion
[2] 小诺AI(支持文生视频和图生视频):微信搜索小程序-小诺AI
[3] Pika(支持文生视频):https://pika.art/
[4] Open-Sora(支持文生视频):GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

二、当前视频生成解决方案一览

最近看了很多文生视频的开源构建项目[1]、[4]以及闭源直接应用项目[2]、[3],一个直观感受是大家对Sora的应用都很期待。Sora发布至今仅一个月,已经有很多可以直接体验的文生视频产品被推出,这里选择几个比较有人气的应用介绍下。

pika

Pika[3]是Sora前产物,它们勇敢地做出了自己的尝试。虽然Sora发布后对Pika的质疑声音越来越大,但毋庸置疑Pika是先行者,而且取得了不错的成绩,而且Pika也在迭代优化中,有了Sora的经验,Pika有可能在之后带给人们更大的惊喜,个人将保持期待。

这里给出一个官网的示例。

Prompt:3d animation, a cute boy is standing in a house, spring festival interior, lunar new year, holiday.

Stable Video Diffusion

Stable Video Diffusion[1]也是Sora前产物,与Pika不同的是SVD是一个开源项目。所以,有一种观点是Sora借鉴了SVD,这种观点有一定的道理。查看Sora的report,有很多细节如DiT与SVD是一致的。而且SVD在前,说借鉴也没问题。个人觉得SVD是目前视频生成质量最高的解决方案,它能接受的输入形式是image。这里是一个示例,输入的image是一个静态的发射中的火箭,而输出的视频将整个发射过程动态化呈现。

图片输入 rocket

视频输出 rocket(博客不能放视频,这里是将video抽帧呈现的gif)

我们探讨一个问题,SVD的执行过程因为缺少语义的指导,所以它的任务只是将其“动态化”,这种“动态化”有可能是违背物理规律的。通俗地讲,上面的火箭也有可能是水平运动的(我自己的尝试中出现过这种情况),并没有一种途径去指定image中的物体的具体轨迹,指定如何运动才是正确的,这里的运动形式是单纯地由模型在数据集中学习的。

SVD的后续工作应该是加入text,提供更清晰的语义。

Open-Sora

Open-Sora[4]是Sora后产物,是完全根据Sora公布的report复现的开源项目。以下引自Open-Sora项目首页的简介。

Open-Sora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简化了视频制作的复杂性。 通过 Open-Sora,我们希望更多开发者一起探索内容创作领域的创新、创造和包容。Open-Sora 项目目前处在早期阶段,并将持续更新。

这里也给出一些示例,直观感受下效果。

Prompt:A serene night scene in a forested area. The first frame shows a tranquil lake reflecting the star-filled sky above. The second frame reveals a beautiful sunset, casting a warm glow over the landscape. The third frame showcases the night sky, filled with stars and a vibrant Milky Way galaxy. The video is a time-lapse, capturing the transition from day to night, with the lake and forest serving as a constant backdrop. The style of the video is naturalistic, emphasizing the beauty of the night sky and the peacefulness of the forest.

Prompt:A soaring drone footage captures the majestic beauty of a coastal cliff, its red and yellow stratified rock faces rich in color and against the vibrant turquoise of the sea. Seabirds can be seen taking flight around the cliff's precipices. As the drone slowly moves from different angles, the changing sunlight casts shifting shadows that highlight the rugged textures of the cliff and the surrounding calm sea. The water gently laps at the rock base and the greenery that clings to the top of the cliff, and the scene gives a sense of peaceful isolation at the fringes of the ocean. The video captures the essence of pristine natural beauty untouched by human structures.

Prompt:The video captures the majestic beauty of a waterfall cascading down a cliff into a serene lake. The waterfall, with its powerful flow, is the central focus of the video. The surrounding landscape is lush and green, with trees and foliage adding to the natural beauty of the scene. The camera angle provides a bird's eye view of the waterfall, allowing viewers to appreciate the full height and grandeur of the waterfall. The video is a stunning representation of nature's power and beauty.

Prompt:A serene underwater scene featuring a sea turtle swimming through a coral reef. The turtle, with its greenish-brown shell, is the main focus of the video, swimming gracefully towards the right side of the frame. The coral reef, teeming with life, is visible in the background, providing a vibrant and colorful backdrop to the turtle's journey. Several small fish, darting around the turtle, add a sense of movement and dynamism to the scene. The video is shot from a slightly elevated angle, providing a comprehensive view of the turtle's surroundings. The overall style of the video is calm and peaceful, capturing the beauty and tranquility of the underwater world.

小诺AI

小诺AI[3]是舒笔科技推出的一款微信小程序,是基于SVD优化的文生视频产品。在SVD的基础上,小诺AI集成了支持文字Prompt输入的功能,打通了文生视频的pipeline,使用户所写即所得。

该产品目前只支持英文输入的功能,不过没关系,小诺AI同时集成了Prompt咒语生成功能,可将中文Prompt翻译。同时,如果也可以利用该功能对Prompt进行扩写。

这里是一些示例的展示。

Prompt:The sun is setting by the mountain.

Prompt:breathtaking selfie photograph of astronaut floating in space, earth in the background. award-winning, professional, highly detailed

Prompt:breathtaking night street of city, neon lights. award-winning, professional, highly detailed

Prompt:anime artwork an empty classroom. anime style, key visual, vibrant, studio anime, highly detailed

Prompt:a beautiful room

Prompt:anime artwork an island surrounding by the sea, dramatic, anime style, key visual, vibrant, studio anime, highly detailed

Prompt:concept art of a warrior with a sword, clouds. digital artwork, illustrative, painterly, matte painting, highly detailed, cinematic composition

Prompt:16-bit pixel art, a cozy cafe side view, a beautiful day

相关文章:

Sora后时代文生视频的探索

一、写在前面 按常理,这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过,这类文章已经很多了,我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果,并以此为基础,看看Sora发布…...

指南:在各主流操作系统上安装与配置Apache Tomcat

指南:在各主流操作系统上安装与配置Apache Tomcat Apache Tomcat作为一款广受欢迎的开源Java Servlet容器,为用户提供了一个纯Java环境下的Web服务器和Servlet容器。本文将详细介绍如何在不同的操作系统上安装Apache Tomcat,并进行基本的配置…...

物联网的介绍

物联网(Internet of Things,简称IoT)是指通过互联网将物理设备、传感器、通信设备和软件系统相互连接,形成一个网络化的系统。它可以实现设备之间的数据交换、信息共享和远程控制,使得物理世界与数字世界紧密结合。 物…...

目标检测——YOLOR算法解读

论文:YOLOR-You Only Learn One Representation: Unifified Network for Multiple Tasks 作者:Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao 链接:https://arxiv.org/abs/2105.04206 代码:https://github.com/WongKinYiu/yolo…...

NVIDIA NCCL 源码学习(十三)- IB SHARP

背景 之前我们看到了基于ring和tree的两种allreduce算法,对于ring allreduce,一块数据在reduce scatter阶段需要经过所有的rank,allgather阶段又需要经过所有rank;对于tree allreduce,一块数据数据在reduce阶段要上行…...

Spark-Scala语言实战(4)

在之前的文章中,我们学习了如何在scala中定义无参,带参以及匿名函数。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-Scala语言…...

ffmpeg不常用命令整理

最近做了许多有关音视频方面的工作,接触了一些不常用的命令,整理分享出来。 1.剪辑视频 ffmpeg -ss 1 -to 4 -accurate_seek -i input.mp4 -c:v copy output.mp4指定从视频中的第1秒开始,到第4秒结束的部分剪辑。 ss:指定开始时…...

怎么理解面向对象?一文带你全面理解

文章目录 1、类和对象(1)面向过程和面向对象初步认识(2)类的引入(3)类的定义(4)类的访问限定符及封装4.1 访问限定符4.2 封装 (5)类的作用域(6&am…...

神经网络(深度学习,计算机视觉,得分函数,损失函数,前向传播,反向传播,激活函数)

目录 一、神经网络简介 二、深度学习要解决的问题 三、深度学习的应用 四、计算机视觉 五、计算机视觉面临的挑战 六、得分函数 七、损失函数 八、前向传播 九、反向传播 十、神经元的个数对结果的影响 十一、正则化与激活函数 一、神经网络简介 神经网络是一种有监督…...

Tomcat的Host Manager页面403的原因和解决办法

目录 背景 原因: 解决方案 背景 一直报错 403 Access Denied You are not authorized to view this page.By default the Host Manager is only accessible from a browser running on the same machine as Tomcat. If you wish to modify this restriction, youll need to…...

零基础学华为ip认证难吗?华为认证费用多少?

零基础学华为ip认证难吗? 首先,零基础的学习者可以通过系统的学习,逐步掌握网络基础知识和技能。可以通过阅读教材、参加培训课程、进行实践操作等方式,不断提升自己的知识和技能水平。同时,学习者还可以利用华为提供的…...

[C语言]——内存函数

目录 一.memcpy使用和模拟实现(内存拷贝) 二.memmove 使用和模拟实现 三.memset 函数的使用(内存设置) 四.memcmp 函数的使用 C语言中规定: memcpy拷贝的就是不重叠的内存memmove拷贝的就是重叠的内存但是在VS202…...

QGIS编译(跨平台编译)056:PDAL编译(Windows、Linux、MacOS环境下编译)

点击查看专栏目录 文章目录 1、PDAL介绍2、PDAL下载3、Windows下编译4、linux下编译5、MacOS下编译1、PDAL介绍 PDAL(Point Data Abstraction Library)是一个开源的地理空间数据处理库,它专注于点云数据的获取、处理和分析。PDAL 提供了丰富的工具和库,用于处理激光扫描仪、…...

计算机三级——网络技术(综合题第二题)

路由器工作模式 用户模式 当通过Console或Telnet方式登录到路由器时,只要输入的密码正确,路由器就直接进入了用户模式。在该模式下,系统提示符为一个尖括号(>)。如果用户以前为路由器输入过名称,则该名称将会显示在尖指号的前…...

Python 深度学习第二版(GPT 重译)(二)

四、入门神经网络:分类和回归 本章涵盖 您的第一个真实世界机器学习工作流示例 处理矢量数据上的分类问题 处理矢量数据上的连续回归问题 本章旨在帮助您开始使用神经网络解决实际问题。您将巩固从第二章和第三章中获得的知识,并将所学应用于三个新…...

【Redis】Redis常见原理和数据结构

Redis 什么是redis redis是一款基于内存的k-v数据结构的非关系型数据库,读写速度非常快,常用于缓存,消息队列、分布式锁等场景。 redis的数据类型 string:字符串 缓存对象,分布式ID,token,se…...

3个Tips,用“AI”开启新生活

相信最近,很多朋友们都回归到了忙碌的生活节奏中。生活模式的切换,或多或少会带来身体或情绪状况的起伏。新技术正在为人们生活的方方面面带来便利。3个小Tips或许能让你也从新技术中获益,从身到心,用“AI”开启新生活。 关”A…...

【ROS | OpenCV】在ROS中实现多版本OpenCV、cv_bridge共存:安装与配置指南

在 Ubuntu 20.04 中,ROS Noetic 默认安装的 OpenCV 版本为 4.2.0。如果您需要确认系统中已安装的 OpenCV 版本,可以使用以下命令: sudo find / -iname "*opencv*"然而,许多开源算法都是基于 OpenCV 3 编写的&#xff0…...

Docker容器化技术(docker-compose示例:部署discuz论坛和wordpress博客,使用adminer管理数据库)

安装docker-compose [rootservice ~]# systemctl stop firewalld [rootservice ~]# setenforce 0 [rootservice ~]# systemctl start docker[rootservice ~]# wget https://github.com/docker/compose/releases/download/v2.5.0/docker-compose-linux-x86_64创建目录 [rootse…...

微分学<6>——Taylor公式

索引 Taylor公式Taylor公式的定性分析定理6.1 Taylor公式(Peano余项) Taylor公式的定量分析定理6.2 Taylor公式(Lagrange余项) Taylor公式 Taylor公式的定性分析 定理6.1 Taylor公式(Peano余项) 若函数 f ( x ) f\left ( x \right ) f(x)在 x 0 x_{0} x0​处的 n n n阶导数均…...

GME-Qwen2-VL-2B-Instruct精彩案例:广告素材与文案匹配度智能评分实践

GME-Qwen2-VL-2B-Instruct精彩案例:广告素材与文案匹配度智能评分实践 1. 项目背景与价值 在数字营销时代,广告素材与文案的匹配度直接影响转化效果。传统的人工审核方式效率低下,且主观性强,难以保证一致性。GME-Qwen2-VL-2B-I…...

Rockchip RK3588 利用ddrbin_tool 优化DDR变频与调试串口配置

1. RK3588 DDR变频机制解析 RK3588的DDR控制器支持四档变频机制,这个设计在嵌入式领域算是相当先进的。我去年在做一个工业控制项目时就深刻体会到,合理的变频配置能显著降低系统功耗。具体来看,四个频点分别是528MHz、1068MHz、1560MHz和211…...

自抗扰控制三阶LADRC在三相LCL逆变器模型中的应用:图一至图三的详细展示及参考文献

自抗扰控制三阶LADRC控制三相LCL逆变器模型 图一:d轴参考电流在0.15从40变到80的并网电压电流波形 图二:三阶LADRC结构控制LCL三阶模型 图三:整体结构图 参考文献:基于抗扰控制三相LCL逆变器控制策略研究 光伏并网逆变器最头疼的就是LCL滤波器引发的震荡问题。这玩意儿参数敏感…...

5分钟掌握抖音批量下载神器:告别手动保存的烦恼

5分钟掌握抖音批量下载神器:告别手动保存的烦恼 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

用global关键字解决UnboundLocalError?先别急,这里有更Pythonic的3种写法

告别global关键字:3种更优雅的Python变量作用域解决方案 在Python开发中,遇到UnboundLocalError时,很多开发者会条件反射地使用global关键字解决问题。虽然这种方法确实能让代码运行起来,但它往往带来更多隐患——命名空间污染、难…...

保姆级教程:用Python+ArcPy搞定ERA5-Land月数据(降水/气温/辐射)的下载与批量处理

PythonArcPy自动化处理ERA5-Land气象数据的完整实战指南 当面对全球尺度的ERA5-Land月数据时,手动处理降水、气温和辐射等多变量数据就像用勺子舀干大海——效率低下且容易出错。本文将分享一套经过实战检验的自动化处理方案,帮助地理信息、生态水文领域…...

从Mixamo到Unity:构建角色动画控制系统的完整实践指南

1. 从Mixamo获取角色动画资源 Mixamo是Adobe旗下专注于3D角色动画的在线资源库,提供大量免费且高质量的动作捕捉数据。对于刚接触Unity动画系统的新手来说,这个平台能快速解决"如何让角色动起来"的核心问题。我第一次使用Mixamo时,…...

西门子200smart与3台施耐德ATV71变频器通讯程序 可靠稳定,程序自动走完Drivec...

西门子200smart与3台施耐德ATV71变频器通讯程序可靠稳定,程序自动走完Drivecom流程,解决施耐德ATV71变频器断电重启后,自准备工作,无需人为准备 器件:西门子s7-200smart PLC,昆仑通态带以太网通讯的触摸屏&…...

从零到一:Anaconda与PyCharm联手打造专属Python虚拟环境

1. 为什么需要Python虚拟环境? 刚接触Python开发时,我最常遇到的困惑就是:为什么明明在A项目能运行的代码,放到B项目就报错?后来才发现是因为两个项目依赖的库版本不同。比如项目A需要numpy 1.20,而项目B需…...

【仅限本次会议披露】SITS2026 AGI原型系统失败案例复盘(12次目标坍缩事件),暴露通用智能最脆弱环节

第一章:SITS2026 AGI原型系统失败案例复盘总述 2026奇点智能技术大会(https://ml-summit.org) SITS2026 AGI原型系统是面向通用认知架构设计的端到端自主推理平台,于2025年11月在ML-Summit沙盒环境中完成最终集成测试。尽管其理论架构覆盖多模态感知、因…...