当前位置: 首页 > news >正文

Stable Video Diffusion重磅发布,快来看看哪些功能

本周,有关 OpenAI 宫斗的报道占据了Ai圈版面的主导地位,吃够了奥特曼的大瓜。我们来看看Stability AI刚发布的Stable Video Diffusion,这是一种通过对现有图像进行动画处理来生成视频的 AI 模型。基于 Stability 现有的Stable Diffusion文本到图像模型,Stable Video Diffusion 是开源或商业中为数不多的视频生成模型之一。

项目地址:https://github.com/Stability-AI/generative-models

c05c66bd86ef0fe4da9544f39e36ae64.jpeg

Stable Video Diffusion是第一个以Stable Diffusion模型作为基础的影片生成模型,官方在其研究论文提到,近来研究人员在原本用于2D图像生成的潜在扩散模型(Latent Diffusion Model,LDM),加入时间层,并且使用小型、高品质的影片资料集加以训练,试图将其改造成影片生成模型。

Stability AI最新研究进一步定义出训练影片LDM的三个阶段,分别是文字到图像的预训练、影片预训练,最后则是高品质影片的微调。研究人员强调,经过良好整理的预训练资料集,对于产生高品质影片非常重要,甚至还提出一套包括标题制作和过滤策略的系统性整理流程。

研究人员也展示了在高品质资料上微调基础模型的影响,并训练出能够和闭源影片生成模型相匹敌的文字转影片模型。Stable Video Diffusion还可用于图像转影片的生成任务,并且展现出强大的动作表示能力,且适用特定相机运动的LoRA模块。主要特性:文本到视频、图像到视频14 或 25 帧,576 x 1024 分辨率、多视图生成、帧插值、支持 3D 场景、通过 LoRA 控制摄像机。

Stable Video Diffusion在以下几个方面展现出显著的优势:

1.高质量输出:模型能生成接近真实的视频内容,细节丰富,色彩逼真。

2.快速响应:相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。

3.创意自由度:用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。

目前Stability AI 发布两个Stable Video Diffusion版本,SVD 和 SVD-XT,分别是能够生成14帧以及25帧的模型,用户可以自订每秒帧数在3到30之间。虽然高帧数的影片看起来更顺畅,但是在目前的模型限制下,如要产生每秒达30帧数的影片,则两个模型产生的影片长度皆会少于1秒钟。

根据与Stable Video Diffusion 一起发布的白皮书,SVD 和 SVD-XT 最初在数百万个视频的数据集上进行训练,然后在数十万到大约一百万个剪辑的小得多的数据集上进行“微调”。这些视频的来源尚不清楚——该论文暗示许多视频来自公共研究数据集——因此无法判断是否有任何视频受版权保护。如果是的话,它可能会让 Stability 和 Stable Video Diffusion 的用户面临有关使用权的法律和道德挑战。

需要注意的是:目前还不是所有人都可以使用,Stable Video Diffusion 已经开放了用户候补名单注册(https://stability.ai/contact)。

7cb5805b4b9d4b5de4a0b76323bec290.jpeg

根据外部评估,官方宣称SVD甚至比runway和Pika的影片生成AI更受使用者欢迎。 

尽管如此,Stable Video Diffusion 在技术上仍有一定的限制,例如无法生成静态或慢动作影像,不能由文字控制,无法清晰渲染文字,也不能正确生成人脸和人物。同时Stable Video Diffusion 的推出也引发了一些担忧,尤其是关于其可能被滥用的风险。该模型目前似乎没有内置的内容过滤器,这可能会导致其被用于制作不当内容。

相关文章:

Stable Video Diffusion重磅发布,快来看看哪些功能

本周,有关 OpenAI 宫斗的报道占据了Ai圈版面的主导地位,吃够了奥特曼的大瓜。我们来看看Stability AI刚发布的Stable Video Diffusion,这是一种通过对现有图像进行动画处理来生成视频的 AI 模型。基于 Stability 现有的Stable Diffusion文本到…...

城市NOA到来时刻,车企密集上车NVIDIA

作者 |张祥威 编辑 |德新 基于双NVIDIA DRIVE Orin实现城市NOA,已是今天国内汽车行业的主流做法。 这款芯片获得广泛的市场认同,用时仅一年多。去年3月, NVIDIA DRIVE Orin正式投产,此后从造车新势力一路来到更多自主品牌的车内&…...

Linux后台运行Python的py文件,如何使ssh工具退出后仍能运行

常规运行 python3 mysqlbak.py ssh工具退出后,或ctrlc中断后,程序将不在运行 后台运行 nohup python3 mysqlbak.py > mysqlbak.log & > mysqlbak.log为可选项,输出日志到指定文件,如果不写,输出日志到nohup…...

Excel中出现“#NAME?”怎么办?(文本原因)

excel 单元格出现 #NAME? 错误的原因有二: 函数公式输入不对导致 #NAME? 错误。 在单元格中字符串的前面加了号,如下图中的--GoJG7sEe6RqgTnlUcitA,本身我们想要的是--GoJG7sEe6RqgTnlUcitA,但因为某些不当的操作在前面加了号&…...

superset 后端增加注册接口

好烦啊-- &#xff1a;< 1.先定义modes: superset\superset\models\user.py # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information…...

利用 React 和 Bootstrap 进行强大的前端开发

文章目录 介绍React 和 Bootstrap设置环境使用 Bootstrap 创建 React 组件React-Bootstrap 组件结论 介绍 创建响应式、交互式和外观引人入胜的 Web 界面是现代前端开发人员的基本技能。幸运的是&#xff0c;借助 React 和 Bootstrap 等工具的出现&#xff0c;制作这些 UI 变得…...

深度学习之基于Pytorch照片图像转漫画风格网络系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 以下是一个基本的设计介绍&#xff1a; 数据准备&#xff1a;收集足够的真实照片和漫画图像&#xff0c;用于训练模…...

解决No Feign Client for loadBalancing defined,修改Maven依赖

Spring微服务报错&#xff1a; java.lang.IllegalStateException:FactoryBean threw exception on object creation; nested exception is java.lang.IllegalStateException: No Feign Client for loadBalancing defined. Did you forget to include spring-cloud-starter-netf…...

友思特分享 | Neuro-T:零代码自动深度学习训练平台

来源&#xff1a;友思特 智能感知 友思特分享 | Neuro-T&#xff1a;零代码自动深度学习训练平台 欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; 工业自动化、智能化浪潮涌进&#xff0c;视觉技术在其中扮演了至关重要的角色。在汽车、制造业、医药、芯片、食品等行业…...

基于动量的梯度下降

丹尼尔林肯 (Daniel Lincoln)在Unsplash上拍摄的照片 一、说明 基于动量的梯度下降是一种梯度下降优化算法变体&#xff0c;它在更新规则中添加了动量项。动量项计算为过去梯度的移动平均值&#xff0c;过去梯度的权重由称为 Beta 的超参数控制。 这有助于解决与普通梯度下降相…...

ELK+kafka+filebeat企业内部日志分析系统

1、组件介绍 1、Elasticsearch&#xff1a; 是一个基于Lucene的搜索服务器。提供搜集、分析、存储数据三大功能。它提供了一个分布式多用户能力的全文搜索引擎&#xff0c;基于RESTful web接口。Elasticsearch是用Java开发的&#xff0c;并作为Apache许可条款下的开放源码发布…...

MyBatis-Plus: 简化你的MyBatis应用

MyBatis-Plus: 简化你的MyBatis应用 在Java开发中&#xff0c;MyBatis一直是一个受欢迎的持久层框架&#xff0c;提供了灵活的数据访问方式。然而&#xff0c;MyBatis的使用往往涉及许多样板代码&#xff0c;这在一定程度上增加了开发的复杂性。这里&#xff0c;MyBatis-Plus&…...

在 go 的项目中使用验证器

1&#xff1a;使用validate 包验证&#xff1a; 安装包&#xff1a; go get github.com/go-playground/validator/v10 package controllerimport ("fmt""github.com/gin-gonic/gin""github.com/go-playground/validator/v10""net/http&quo…...

Handler系列-sendMessage和post的区别

sendMessage和post基本一样&#xff0c;区别在于post的Runnable会被赋值给Message的callback&#xff0c;在最后调用dispatchMessage的时候&#xff0c;callback会被触发执行。 1.sendMessage 调用sendMessageDelayed发送消息 public class Handler {public final boolean s…...

java中 自动装箱与拆箱,基本数据类型,java堆与栈,面向对象与面向过程

文章目录 自动装箱与拆箱基本数据类型与包装类的区别&#xff08;int 和 Integer 有什么区别&#xff09;应用场景的区别&#xff1a; 堆和栈的区别重点来说一下堆和栈&#xff1a;那么堆和栈是怎么联系起来的呢? 堆与栈的区别 很明显&#xff1a;延伸&#xff1a;关于Integer…...

C语言第二十八弹--输入一个非负整数,返回组成它的数字之和

C语言求输入一个非负整数&#xff0c;返回组成它的数字之和 方法一、递归法 思路&#xff1a;设计一个初始条件&#xff0c;通过递归获取非负整数的个位&#xff0c;不断接近递归条件即可。 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h>int DigitSum(int n) {…...

redis---主从复制及哨兵模式(高可用)

主从复制 主从复制&#xff1a;主从复制是redis实现高可用的基础&#xff0c;哨兵模式和集群都是在主从复制的基础之上实现高可用。 主从负责的工作原理 1、主节点&#xff08;master&#xff09; 从节点&#xff08;slave&#xff09;组成&#xff0c;数据复制是单向的&a…...

【不同请求方式在springboot中对应的注解】

GET 请求方法&#xff1a;用于获取资源。使用 GetMapping 注解来处理 GET 请求。 示例代码&#xff1a; RestController public class MyController {GetMapping("/resource")public ResponseEntity<String> getResource() {// 处理 GET 请求逻辑} }POST 请求方…...

前端入门(三)Vue生命周期、组件技术、事件总线、

文章目录 Vue生命周期Vue 组件化编程 - .vue文件非单文件组件组件的注意点组件嵌套Vue实例对象和VueComponent实例对象Js对象原型与原型链Vue与VueComponent的重要内置关系 应用单文件组件构建 Vue脚手架 - vue.cli项目文件结构refpropsmixin插件scoped样式 Vue生命周期 1、bef…...

消息推送到微信,快速实现WxPusher

文章目录 前言一、平台二、代码总结 前言 我的博客里也有其他方法&#xff0c;测试了下感觉这个方法还是比较实用。 一、平台 先仔细阅读下平台的使用方法。 平台地址请点击 二、代码 import requests text 孪生网络模型已经训练完成&#xff0c;请注意查阅相关信息。 req…...

从NoteExpress转投EndNote?这份迁移指南帮你无缝衔接中文文献管理

从NoteExpress迁移到EndNote&#xff1a;中文文献管理的高效转型指南 如果你正在考虑从NoteExpress转向EndNote&#xff0c;可能已经感受到了两种文献管理工具之间的巨大差异。作为长期使用NoteExpress的研究者&#xff0c;面对EndNote全英文界面时的困惑、对中文文献支持不足的…...

不用训练、不用改权重!只让小模型“多想一层”,性能暴涨12%

你有没有想过&#xff1a;给大模型“多想一遍”&#xff0c;不用重新训练、不用改权重&#xff0c;就能让它变聪明&#xff1f;最近&#xff0c;一位技术博主在40亿参数的小模型Qwen3-4B上&#xff0c;做了一场超硬核的“大脑手术”——只重复执行某一层推理&#xff0c;综合性…...

从AM到VSB:揭秘模拟调制技术的演进与实战解调

1. 模拟调制技术的前世今生&#xff1a;从AM到VSB的进化之路 记得我第一次接触无线电广播时&#xff0c;就被那个能"凭空"传递声音的小盒子迷住了。后来才知道&#xff0c;这背后藏着模拟调制技术的精妙设计。AM&#xff08;调幅&#xff09;就像是最早的"声音快…...

无服务器AI计算中的硬件加速挑战与Gaia架构设计

1. 无服务器AI计算中的硬件加速挑战在当今分布式计算领域&#xff0c;无服务器架构(Serverless)因其弹性扩展和按使用量付费的特性&#xff0c;已成为AI工作负载的理想载体。然而&#xff0c;当这些工作负载运行在由边缘计算、云计算和近地轨道(LEO)卫星构成的3D计算连续体(3D …...

微信小程序实战:从零构建一个高精度计算器

1. 为什么需要高精度计算器 在日常开发中&#xff0c;我们经常遇到一个头疼的问题&#xff1a;JavaScript的浮点数计算不准确。比如0.10.2的结果不是0.3&#xff0c;而是0.30000000000000004。这种精度问题在金融、科学计算等场景下会造成严重错误。 我在开发电商小程序时就踩过…...

LDBlockShow:快速高效的连锁不平衡热图绘制终极指南

LDBlockShow&#xff1a;快速高效的连锁不平衡热图绘制终极指南 【免费下载链接】LDBlockShow LDBlockShow: a fast and convenient tool for visualizing linkage disequilibrium and haplotype blocks based on VCF files 项目地址: https://gitcode.com/gh_mirrors/ld/LDB…...

智能客服——模型智商测试

测试方法&#xff1a; 看 AI 模型能力排行榜&#xff0c;链接&#xff0c;适合评估在线模型。使用在线模型需要考虑&#xff0c;1. API 是否开放&#xff1b;2. token 费用&#xff1b;3. 国内备案&#xff1b;4. 数据安全。 自己进行能力测试&#xff0c;适合评估需要私有化部…...

D3KeyHelper技术深度解析:基于AutoHotkey的暗黑3按键自动化实现原理

D3KeyHelper技术深度解析&#xff1a;基于AutoHotkey的暗黑3按键自动化实现原理 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面&#xff0c;可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一款基…...

黑苹果休眠问题深度解析与完整解决方案:从唤醒失败到完美休眠

黑苹果休眠问题深度解析与完整解决方案&#xff1a;从唤醒失败到完美休眠 【免费下载链接】Hackintosh Hackintosh long-term maintenance model EFI and installation tutorial 项目地址: https://gitcode.com/gh_mirrors/ha/Hackintosh Hackintosh 黑苹果系统作为非苹…...

别再为HuggingFace下载发愁!手把手教你用本地模型搞定BERTopic新闻主题分析

本地化部署BERTopic&#xff1a;无需依赖HuggingFace的新闻主题分析实战指南 在自然语言处理领域&#xff0c;主题建模一直是文本分析的核心任务之一。BERTopic作为近年来崛起的新型主题建模工具&#xff0c;凭借其结合预训练语言模型和传统聚类算法的优势&#xff0c;在新闻分…...