阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代
0.前言
阿里巴巴于2025年5月14日正式开源了其最新的AI视频生成与编辑模型——通义万相Wan2.1-VACE。这一模型是业界功能最全面的视频生成与编辑工具,能够同时支持多种视频生成和编辑任务,包括文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展以及视频时长延展等全系列基础生成和编辑能力。
下面详细给大家介绍一下它的技术和能力亮点。
1.核心技术与能力亮点
-
全面可控的生成能力****全面可控的生成能力
通义万相2.1-VACE 支持对视频生成进行细粒度控制,可基于多种控制信号生成内容,包括:-
人体姿态光流
-
结构保留
-
空间运动
-
色彩渲染
同时,它还支持基于主体和背景参考的视频生成。
-
-
强大的局部与全局编辑能力
- 局部编辑:可指定视频中的局部区域进行元素替换、添加或删除。
- 时间轴编辑:给定任意视频片段,可通过首尾帧补全生成完整视频。
- 空间扩展:支持视频扩展生成,典型应用包括视频背景替换 —— 在保持主体不变的前提下,根据文本提示更换背景。
-
多形态信息输入
为解决专业创作者面临的 “仅用文本提示难以精准控制元素一致性、布局、运动和姿态” 的局限,One2.1V 在 2.1 模型基础上进一步升级,成为集成文本、图像、视频、掩码和控制信号的统一视频编辑模型:- 图像输入:支持参考图像(物体相关)或视频帧输入。
- 视频输入:可通过擦除部分内容、局部编辑或扩展等操作实现视频重生成。
- 掩码输入:用户可通过 0/1 二进制信号指定编辑区域。
- 控制信号输入:支持深度图、光流布局、灰度图、线稿和姿态等信号。
-
统一的模型架构
其核心技术突破在于采用单一模型处理传统需要多个 “专业模型” 的任务,这得益于动态输入模块和继承自 2.1 模型的强大视频生成能力。这意味着,图像参考(元素一致性)、视频重创作(姿态迁移、运动 / 结构控制、色彩重渲染)、局部编辑(主体重塑 / 移除、背景 / 时长扩展)等功能均可通过 通义万相2.1-VACE实现。视频条件单元 VCU
通义万相团队深入分析和总结了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务的输入形态,提出了一个更加灵活统一的输入范式:视频条件单元 VCU
多模态输入的token序列化FINE-TUNING
在多模态输入处理中,token 序列化是 Wan2.1 视频扩散 Transformer 架构精准解析输入信息的关键环节,而 VACE 成功攻克了这一难题。其处理流程可分为概念解耦、编码转换与特征融合三个核心步骤。
在概念解耦阶段,VACE 针对 VCU 输入的 Frame 序列,创新性地将图像元素按性质拆分。对于需保留原始视觉信息的 RGB 像素,以及承载控制指令等需重新生成的像素内容,分别构建可变帧序列与不变帧序列,为后续处理奠定基础。
进入编码转换环节,三类序列分别经历专属编码路径。可变帧序列与不变帧序列借助 VAE(变分自编码器),转化为与 DiT 模型噪声维度匹配、通道数为 16 的隐空间表征;mask 序列则通过变形与采样技术,编码为时空维度统一、通道数达 64 的特征向量,实现不同模态数据的规范化表达。
最终的特征融合步骤,VACE 将 Frame 序列与 mask 序列的隐空间特征深度整合,并通过可训练参数模块,精准映射为适配 DiT 模型的 token 序列,成功搭建起多模态输入与 Transformer 架构之间的高效信息桥梁。
-
无缝的任务组合能力
统一模型的一大优势是天然支持自由组合各种基础功能,无需为每种独特功能单独训练新模型。典型组合场景包括:- 结合图像参考与主体重塑,实现视频物体替换。
- 结合运动控制与帧参考,控制静态图像的姿态。
- 结合图像参考、帧参考、背景扩展与时长扩展,将静态风景图转化为横版视频,并可添加参考图像中的元素。
上面给大家展示了模型的能力, 效果到底如何呢?下面手把手带大家在魔搭社区部署和搭建,我们感受一下把。
2.模型部署
模型社区启动资源
登录魔搭社区https://modelscope.cn/
搜索模型 通义万相2.1-VACE-1.3B
我们点击右上角nodebook快速开发- 使用魔搭平台提供的免费实例
这里我们选择PAI-DSW,选择GPU环境,点击启动按钮等待服务器分配资源
启动按钮点击后,我们稍等几分钟
启动完成后我们点击查看nodebook进入调试界面
模型下载
我们进入nodebook调试界面看到下面的界面
接下来我们需要把模型权重下载下来。
我们打开一个终端命令
在shell窗口中,我们输入下面命令下载模型权重
pip install modelscope
modelscope download --model Wan-AI/Wan2.1-VACE-1.3B --local_dir /mnt/workspace/Wan2.1-VACE-1.3B
模型推理
接下来我们在github上下载模型推理代码,我们在shell窗口输入如下命令
git clone https://ghfast.top/https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
接下来我们安装一下模型推理依赖
pip install -r requirements.txt
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124
看到上面的画面我们就完成推理代码python依赖包的安装。
检查一下torch
pip show torch
cli inference
接下来来我们使用cli 命令行测试验证一下模型是否能够推理成功
cd /mnt/workspace/Wan2.1
python generate.py --task vace-1.3B --size 832*480 --ckpt_dir /mnt/workspace/Wan2.1-VACE-1.3B --src_ref_images /mnt/workspace/Wan2.1/examples/girl.png,/mnt/workspace/Wan2.1/examples/i2v_input.JPG --prompt "在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的小猫嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。小猫带着眼睛。小女孩欢快地用手轻轻抚摸着小猫头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。"
程序运行加载模型,第一次运行会比较慢一点。
推理结束
完成推理后我们看一下视频生成的效果
手有点脱离身体,不过确实把小女孩和猫合成在一个视频里面,哈哈。
gradio inference
接下来我们使用gradio web页面的方式实现模型推理
cd /mnt/workspace/Wan2.1
python gradio/vace.py --ckpt_dir /mnt/workspace/Wan2.1-VACE-1.3B
页面启动完成
页面打开(我们借用官方的提供的gradio,页面有点丑)
先测试一个简单,上传一个猫头鹰飞翔的图片 ,图片的长设置832 宽度设置480
猫头鹰在天空中自由的飞翔
生成的效果
以上我们用2种方式实现了基于Wan2.1-VACE模型的推理。从提供的DEMO和模型的代码里面来看有不少好玩的东西。由于我这里用了魔搭社区免费GPU算力,实现的推理效果可能和官方宣传有点差异。但是我测试下来总体还可以,由于时间关系也没有做详细的测试。
3.总结:
今天主要带大家了解了阿里巴巴于 2025 年 5 月 14 日开源的 AI 视频生成与编辑模型 —— 通义万相 Wan2.1-VACE,并详细介绍了其部署和推理过程。该模型具有全面可控的生成能力、强大的局部与全局编辑能力、多形态信息输入、统一的模型架构以及无缝的任务组合能力等亮点,是业界功能最全面的视频生成与编辑工具。由于时间关系,本次测试未进行详细的对比和评估。不过,从模型的功能和提供的 DEMO 来看,通义万相 Wan2.1-VACE 具有很大的应用潜力,能够为视频生成和编辑领域带来新的可能性。感兴趣的小伙伴可以按照本文步骤去尝试,探索该模型更多的应用场景。今天的分享就到这里结束了,我们下一篇文章见。
#WanVACE
相关文章:

阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代
0.前言 阿里巴巴于2025年5月14日正式开源了其最新的AI视频生成与编辑模型——通义万相Wan2.1-VACE。这一模型是业界功能最全面的视频生成与编辑工具,能够同时支持多种视频生成和编辑任务,包括文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展…...

小学数学题批量生成及检查工具
软件介绍 今天给大家介绍一款近期发现的小工具,它非常实用。 软件特点与出题功能 这款软件体积小巧,不足两兆,具备强大的功能,能够轻松实现批量出题。使用时,只需打开软件,输入最大数和最小数,…...

5.13/14 linux安装centos及一些操作命令随记
一、环境准备 VMware Workstation版本选择建议 CentOS 7 ISO镜像下载指引 虚拟机硬件配置建议(内存/处理器/磁盘空间) 二、系统基础命令 一、环境准备 1.VMware Workstation版本选择建议 版本选择依据 选择VMware Workstation的版本时,…...
OpenCV 背景建模详解:从原理到实战
在计算机视觉领域,背景建模是一项基础且重要的技术,它能够从视频流中分离出前景目标,广泛应用于运动目标检测、视频监控、人机交互等场景。OpenCV 作为计算机视觉领域最受欢迎的开源库之一,提供了多种高效的背景建模算法。本文将深…...
Transformer 模型与注意力机制
目录 Transformer 模型与注意力机制 一、Transformer 模型的诞生背景 二、Transformer 模型的核心架构 (一)编码器(Encoder) (二)解码器(Decoder) 三、注意力机制的深入剖析 …...
卡顿检测与 Choreographer 原理
一、卡顿检测的原理 卡顿的本质是主线程(UI 线程)未能及时完成某帧的渲染任务(超过 16.6ms,以 60Hz 屏幕为例),导致丢帧(Frame Drop)。检测卡顿的核心思路是监控主线程任务的执行时…...

Baklib加速企业AI数据智理转型
Baklib智理AI数据资产 在AI技术深度渗透业务场景的背景下,Baklib通过构建企业级知识中台架构,重塑了数据资产的治理范式。该平台采用智能分类引擎与语义分析模型,将分散在邮件、文档、数据库中的非结构化数据转化为标准化的知识单元…...

基于协同过滤的文学推荐系统设计【源码+文档+部署】
基于协同过滤的文学推荐系统设计 摘要 随着信息技术的飞速发展和文学阅读需求的日益多样化,构建一个高效、精准的文学推荐系统变得尤为重要。本文采用Spring Boot框架,结合协同过滤算法,设计并实现了一个基于用户借阅行为和社交论坛互动的文学…...
在c/c++中,如何使用链表进行插入、删除和遍历功能。
首先,链表由节点组成,每个节点应该包含数据和指向下一个节点的指针。 结构体可以包含数据域和指针域。 比如,假设链表存储整数,那节点的结构体应该有一个int类型的数据和一个指向同样结构体的指针。结构体定义大概是这样的&…...

数据结构与算法——单链表(续)
单链表(续) 查找在指定位置之前插入结点在指定位置之后插入结点删除pos位置的结点删除pos位置之后的结点销毁 查找 遍历:pcur指向头结点,循环,当pucr不为空进入循环,pucr里面指向的数据为要查找的值的时候…...

全面且深度学习c++类和对象(上)
文章目录 过程和对象类的引入,类的定义类的访问限定符及封装类的访问限定符封装 类的实例化类大小内存对齐规则: this指针this特性 过程和对象 C语言面向过程设计,c面向对象设计, 举例:洗衣服 C语言:放衣服…...

开源情报如何成为信息攻防的关键资源
相比于传统情报,开源情报具有情报数量大、情报质量好、情报成本低、情报可用性强等优势。这是开源情报能够成为信息攻防关键资源的主要原因。 海量信息让开源情报具有更大潜力。一是开源情报体量巨大。信息化时代是信息爆炸的时代,网络上发布的各种信息…...

【风控】用户特征画像体系
一、体系架构概述 1.1 核心价值定位 风控特征画像体系是通过多维度数据融合分析,构建客户风险全景视图的智能化工具。其核心价值体现在: 全周期覆盖:贯穿客户生命周期的营销、贷前、贷中、贷后四大场景立体化刻画:整合基础数据…...
Android开发-文本输入
在Android应用开发中,文本输入是用户与应用交互的最常见方式之一。无论是登录界面、搜索框还是表单填写,都需要处理用户的文本输入。本文将介绍如何在Android应用中实现和管理文本输入,包括基本控件的使用、事件监听、输入验证以及一些高级功…...

Unity:场景管理系统 —— SceneManagement 模块
目录 🎬 什么是 Scene(场景)? Unity 项目中的 Scene 通常负责什么? 🌍 一个 Scene 包含哪些元素? Scene 的切换与管理 📁 如何创建与管理 Scenes? 什么是Scene Man…...
elementUI源码学习
学习笔记。 最近在看element的table表格优化,又去看了一下element源码框架。element 的架构是很优秀,通过大量的脚本实现工程化,让组件库的开发者专注于事情本身,比如新加组件,一键生成组件所有文件,并完成…...

SZU 编译原理
总结自 深圳大学《编译原理》课程所学相关知识。 文章目录 文法语法分析自顶向下的语法分析递归下降分析LL(1) 预测分析法FIRST 集合FOLLOW 集合 文法 乔姆斯基形式语言理论: 表达能力:0型文法 > 1型文法 > 2型文法 > 3型文法。 0 型文法&am…...
实时技术方案对比:SSE vs WebSocket vs Long Polling
早期网站仅展示静态内容,而如今我们更期望:实时更新、即时聊天、通知推送和动态仪表盘。 那么要如何实现实时的用户体验呢?三大经典技术各显神通: SSE(Server-Sent Events):轻量级单向数据流WebSocket:双向全双工通信Long Polling(长轮询):传统过渡方案假设目前有三…...

【程序员AI入门:模型】19.开源模型工程化全攻略:从选型部署到高效集成,LangChain与One-API双剑合璧
一、模型选型与验证:精准匹配业务需求 (一)多维度评估体系 通过量化指标权重实现科学选型,示例代码计算模型综合得分: # 评估指标权重与模型得分 requirements {"accuracy": 0.4, "latency": …...
北斗导航 | 基于深度学习的卫星导航数据训练——检测识别故障卫星
深度学习+故障卫星识别 **1. 数据准备与预处理****2. 模型选择与设计****3. 训练策略****4. 模型优化与验证****5. 实时部署与集成****6. 持续学习与更新****示例模型架构(LSTM + Attention)****挑战与解决方案**🥦🥦🥦🥦🥦🥦🥦🥕🥦🥦🥦🥦🥦🥦�…...

ARM Cortex-M3内核详解
目录 一、ARM Cortex-M3内核基本介绍 (一)基本介绍 (二)主要组成部分 (三)调试系统 二、ARM Cortex-M3内核的内核架构 三、ARM Cortex-M3内核的寄存器 四、ARM Cortex-M3内核的存储结构 五、ARM Co…...
基于Unity的简单2D游戏开发
基于Unity的简单2D游戏开发 摘要 本文围绕基于Unity的简单2D游戏开发进行深入探讨,旨在分析其开发过程中的技术架构与实现策略。通过文献综述与市场分析,研究发现,近年来Unity引擎因其优秀的跨平台特性及可视化编程理念,成为2D游戏开发的主要工具。文章首先梳理了游戏开发的…...
Linux系统编程——exec族函数
我们来完整、系统、通俗地讲解 Linux 系统编程中非常重要的一类函数:exec 族函数(也叫 exec family)。 一、什么是 exec? exec 系列函数的作用是: 用一个新的程序,替换当前进程的内容。 也就是说…...

ThinkStation图形工作站进入BIOS方法
首先视频线需要接在独立显卡上,重新开机,持续按F1,或者显示器出来lenovo的logo的时候按F1,这样就进到bios里了。联*想*坑,戴尔贵。靠。...

go 集成base64Captcha 支持多种验证码
base64Captcha 是一个基于 Go 语言开发的验证码生成库,主要用于在 Web 应用中集成验证码功能,以增强系统的安全性。以下是其主要特点和简介: base64Captcha主要功能 验证码类型丰富:支持生成多种类型的验证码,包括纯…...

【C语言字符函数和字符串函数(一)】--字符分类函数,字符转换函数,strlen,strcpy,strcat函数的使用和模拟实现
目录 一.字符分类函数 1.1--字符分类函数的理解 1.2--字符分类函数的使用 二.字符转换函数 2.1--字符转换函数的理解 2.2--字符转换函数的使用 三.strlen的使用和模拟实现 3.1--strlen的使用演示 3.2--strlen的返回值 3.3--strlen的模拟实现 四.strcpy的使用和模拟实现…...
deepseek问答记录:请讲解一下hugingface transformers中的AutoProcessor
Hugging Face Transformers库中的AutoProcessor是一个用于自动加载与预训练模型配套的处理器的工具类。它简化了预处理流程,特别适用于多模态模型(如同时处理文本、图像、音频的模型)。以下是详细讲解: 1. AutoProcessor的功能 •…...

大模型基础之量化
概述 量化,Quantization,机器学习和深度学习领域是一种用于降低计算复杂度、减少内存占用、加速推理的优化方法。定义:将模型中的数据从高精度表示转换为低精度表示。主要目的是为了减少模型的存储需求和计算复杂度,同时尽量减少…...

游戏引擎学习第286天:开始解耦实体行为
回顾并为今天的内容定下基调 我们目前正在进入实体系统的一个新阶段,之前我们已经让实体的移动系统变得更加灵活,现在我们想把这个思路继续延伸到实体系统的更深层次。今天的重点,是重新审视我们处理实体类型(entity type&#x…...

win10-django项目与mysql的基本增删改查
以下都是在win10系统下,django项目的orm框架对本地mysql的表的操作 models.py----->即表对应的类所在的位置 在表里新增数据 1.引入表对应的在models.py中的类class 2.在views.py中使用函数:类名.objects.create(字段名值,字段名"值"。。。…...