当前位置: 首页 > article >正文

阿里万相,正式开源

大家好,我是小悟。

阿里万相正式开源啦。这就像是AI界突然开启了一扇通往宝藏的大门,而且还是免费向所有人敞开的那种。

你想想看,在这个科技飞速发展的时代,AI就像是拥有神奇魔法的魔法师,不断地给我们带来各种意想不到的惊喜。而阿里万相,就是这个魔法师团队里的新星。

2 月 25 日晚间,阿里云旗下的视觉生成基座模型万相2.1(Wan)正式开源啦。这消息一出来,就像是在平静的湖面上投下了一颗重磅炸弹,瞬间在科技界引起了轩然大波。

图片

阿里万相这次开源,可是诚意满满。它采用了最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源。

这就好比是一个慷慨的美食家,把自己精心准备的美味佳肴毫无保留地端了出来,大家可以尽情品尝。

它还支持文生视频和图生视频任务哦。你没听错,只要你有想法,无论是写一段生动的文字描述,还是上传一张创意满满的图片,万相都能像变魔术一样,为你生成炫酷的视频。

说到这,你可能会问,这个万相到底有多厉害呢?那可真是不容小觑。14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面那表现,简直可以用“惊艳”来形容。

图片

在权威评测集VBench中,万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。这就好比是在一场激烈的赛跑比赛中,它像一阵风一样,把其他选手远远地甩在了后面。

而1.3B版本也毫不逊色,它的测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型。这就好比是一个小个子选手,凭借着自己的实力,和那些身材高大的选手一较高下,还取得了不俗的成绩。

更让人惊喜的是,这个1.3B版本能在消费级显卡运行,仅需8.2GB显存就可以生成高质量视频。这对于很多人来说,简直是一个福音。

以后,无论你是专业的AI开发者,还是业余的编程爱好者,甚至是只是对视频生成好奇的小伙伴,都可以用自己电脑里的显卡,体验一下万相的神奇魔力。

图片

阿里万相之所以这么厉害,是因为它的团队在算法设计上可是下了大功夫的。它基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等一系列黑科技。

就拿3D VAE来说吧,为了实现高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制。

这就好比是在一条繁忙的公路上,增加了一个高效的调度中心,让车辆的通行变得更加顺畅,从而代替了直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

而且通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。这就像是一个精明的管家,把资源管理得井井有条,让一切都有条不紊地运行。

万相团队的实验结果也充分证明了它的实力。在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且斩获5项第一。

图片

这就好比是在一场选美比赛中,它凭借自己的才华和魅力,赢得了评委们的一致认可。特别是在复杂运动和物理规律遵循上的表现上大幅提升。

它能稳定展现各种复杂的人物肢体运动,像旋转、跳跃、转身、翻滚等动作,都能做得栩栩如生。还能精准还原碰撞、反弹、切割等复杂真实物理场景,仿佛给虚拟世界装上了真实的物理引擎。

阿里从2023年开始,就坚定地走上了大模型开源路线。就像是一个有远见的探险家,发现了一条充满希望的道路,然后毫不犹豫地带着大家一起前行。

自2023年8月起,阿里云相继开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,已成为全球开源社区最重要的模型系列。

图片

阿里云千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。这一次万相的正式开源,无疑是给这个庞大的AI模型家族注入了新的活力。

从应用角度看,万相模型可以说是“百变精灵”。它可生成影视级高清视频,能应用于影视创作、动画设计、广告设计等领域。

想象一下,你的创意和万相的强大功能相结合,说不定能创造出令人惊叹的作品。就像电影导演们有了一个神奇的助手,能够更加轻松地实现他们的奇思妙想。动画设计师们也能借助万相的力量,让他们的角色和场景更加生动逼真。

随着万相的开源,阿里云也实现了全模态、全尺寸大模型的开源。这就好比是一个商业帝国已经建立了一个全方位的武器库,里面各种强大的武器应有尽有,等待着大家去发掘和利用。

全球的开发者们都可以在Github、HuggingFace和魔搭社区下载体验这个强大的工具,发挥自己的创造力。

对于广大开发者来说,阿里万相正式开源是一个绝佳的机会。你可以参与到这个充满创新和挑战的领域中来,用自己的智慧和代码,探索AI的无限可能。

图片

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

相关文章:

阿里万相,正式开源

大家好,我是小悟。 阿里万相正式开源啦。这就像是AI界突然开启了一扇通往宝藏的大门,而且还是免费向所有人敞开的那种。 你想想看,在这个科技飞速发展的时代,AI就像是拥有神奇魔法的魔法师,不断地给我们带来各种意想…...

Glide图片加载优化全攻略:从缓存到性能调优

在 Android 的图片加载库 Glide 中,当图片加载到列表(如 RecyclerView 或 ListView)时,Glide 会根据其内部的线程池和缓存机制来管理图片的加载任务。以下是关于 Glide 在列表中同时异步加载几张图片的相关细节: 1. Gl…...

力扣HOT100之哈希:49. 字母异位词分组

这道题自己先想了一边,定义了一个比较字符串的函数,用二重循环和一个数组来实现字符串的比较,若两个字符串是异位词,那么就返回true,否则返回false,在主函数中,同样用一个二重循环来遍历向量中的…...

纯前端使用 Azure OpenAI Realtime API 打造语音助手

本文手把手教你如何通过纯前端代码实现一个实时语音对话助手,结合 Azure 的 Realtime API,展示语音交互的未来形态。项目开源地址:https://github.com/sangyuxiaowu/WssRealtimeAPI 1. 背景 在这个快节奏的数字时代,语音助手已经…...

基于Windows11的RAGFlow安装方法简介

基于Windows11的RAGFlow安装方法简介 一、下载安装Docker docker 下载地址 https://www.docker.com/ Download Docker Desktop 选择Download for Winodws AMD64下载Docker Desktop Installer.exe 双点击 Docker Desktop Installer.exe 进行安装 测试Docker安装是否成功&#…...

教育强国建设“三年行动计划“分析

教育部即将推出的教育强国建设"三年行动计划"中,职业教育板块的部署体现出鲜明的战略导向和创新思维,其核心是通过系统化布局和结构性改革推动职业教育高质量发展。以下从政策内涵、实施路径及潜在影响三个维度展开分析: 一、政策…...

基于Spring Boot+vue的厨艺交流平台系统设计与实现

大家好,今天要和大家聊的是一款基于Spring Boot的“厨艺交流平台”系统的设计与实现。项目源码以及部署相关事宜请联系我,文末附上联系方式。 项目简介 基于Spring Boot的“厨艺交流平台”系统设计与实现的主要使用者分为管理员、普通用户和游客。没有…...

GPU、NPU与LPU:大语言模型(LLM)硬件加速器全面对比分析

引言:大语言模型计算基础设施的演进 随着大语言模型(LLM)的快速发展与广泛应用,高性能计算硬件已成为支撑LLM训练与推理的关键基础设施。目前市场上主要有三类处理器用于加速LLM相关任务:GPU(图形处理单元…...

Spring Boot Gradle 项目中使用 @Slf4j 注解

Spring Boot Gradle 项目中,如果想使用 Slf4j 注解来启用日志记录,首先需要添加 Lombok 和 SLF4J 的依赖。可以通过以下步骤来添加它们: 1. 添加 Lombok 依赖 在 build.gradle 文件中添加以下 Lombok 依赖: dependencies {impl…...

第四十五:创建一个vue 的程序

html <div id"app">{{ msg }}<h2>{{ web.title }}</h2><h3>{{ web.url }}</h3> </div> js /*<div id"app"></div> 指定一个 id 为 app 的 div 元素{{ }} 插值表达式, 可以将 Vue 实例中定义的数据在视图…...

强化学习-随机近似与随机梯度下降

强化学习-数学理论 强化学习-基本概念强化学习-贝尔曼公式强化学习-贝尔曼最优公式强化学习-值迭代与策略迭代强化学习-蒙特卡洛方法强化学习-随机近似于随机梯度下降 文章目录 强化学习-数学理论一、前言二、再谈mean eatimation2.1 回顾蒙特卡洛法2.2 新角度解决求均值问题2…...

前端怎么排查幽灵依赖

“幽灵依赖”是指项目中实际使用但未在 package.json 中显式声明的依赖项。排查幽灵依赖可以帮助避免潜在的版本冲突和运行时错误。以下是排查幽灵依赖的几种常见方法&#xff1a; 使用 npm ls 或 yarn list 命令 运行 npm ls 或 yarn list 可以查看项目中安装的所有依赖及其依…...

分布式锁实现方案对比与最佳实践

目录 分布式锁的应用场景常见的锁实现方案Redisson实现分布式锁的最佳实践方案对比与选择建议 分布式锁的应用场景 在分布式系统中&#xff0c;常常需要控制对共享资源的访问。典型的应用场景包括&#xff1a; 缓存击穿防护&#xff1a;防止大量请求同时查询数据库库存扣减…...

从 XMLHttpRequest 到 Fetch:现代 Web 请求技术的演进

在现代 Web 开发中&#xff0c;与服务器进行数据交互是必不可少的一部分。无论是加载动态内容、提交表单数据&#xff0c;还是实现实时更新&#xff0c;都需要通过 HTTP 请求来完成。本文将介绍两种主流的 Web 请求技术&#xff1a;XMLHttpRequest 和 Fetch API&#xff0c;探讨…...

Linux纯命令行界面下SVN的简单使用教程

诸神缄默不语-个人技术博文与视频目录 我用的VSCode插件是这个&#xff1a; 可以在文件中用色块显示代码修改了什么地方&#xff0c;点击色块还可以显示修改内容。 文章目录 1. SVN安装2. checkout3. update1. 将文件加入版本控制 4. commit5. 查看SVN信息&#xff1a;info6.…...

python 初学攻略(上)

废话写在前面&#xff0c;后面都是干货&#xff0c;这个语言教学到处都是。我这里直接给你搞定所有要用的就好了。 环境安装&#xff08;略&#xff09; 输出函数print 转义字符 二进制与字符编码 标识符和保留字 变量的定义和使用 数据类型 整数类型 浮点类型 布尔类型 字符串…...

大语言模型 智能助手——既能生成自然语言回复,又能在必要时调用外部工具获取实时数据

示例代码&#xff1a; import json from langgraph.graph import Graph, END,StateGraph from langchain_core.utils.function_calling import convert_to_openai_function from langchain_community.tools.openweathermap import OpenWeatherMapQueryRun from langchain_core…...

人工智能开发面经AI、大数据、算法

以下是一份AI算法开发岗位的面试面经&#xff0c;结合最新行业趋势和经典问题&#xff0c;涵盖技术解析与实战案例&#xff0c;供参考&#xff1a; 一、机器学习基础&#xff08;占比约30%&#xff09; 1. 过拟合与欠拟合的解决方案 问题&#xff1a;如何解决模型过拟合&…...

计算机网络——子网掩码

一、子网掩码是什么&#xff1f;它长什么样&#xff1f; 子网掩码的定义 子网掩码是一个32位的二进制数字&#xff0c;与IP地址“配对使用”&#xff0c;用于标识IP地址中哪部分属于网络地址&#xff0c;哪部分属于主机地址。 示例&#xff1a;IP地址 192.168.1.10&#xff0c;…...

《基于大数据的相州镇新农村商务数据分析与研究》开题报告

目录 一、选题依据 1.选题背景 2.国内外研究现状与水平 &#xff08;1&#xff09;国外研究现状 &#xff08;2&#xff09;国内研究现状 3.发展趋势 4.研究意义 二、研究内容 1.学术构思与思路 &#xff08;1&#xff09;主要研究内容 (2&#xff09;拟解决的关键问…...

Linux : 环境变量

目录 一 环境变量 1.基本概念 二 常见环境变量 三 查看环境变量的方法 1.env:查看系统中所有环境变量 2. echo $NAME 四 如何不带路径也能运行的自己的程序 1.将自己的程序直接添加到PATH指定的路径下 五 环境变量与本地变量 1.本地变量 2. 环境变量 六C、C中main()…...

SQL-labs13-16闯关记录

http://127.0.0.1/sqli-labs/less-13/ 基于POST单引号双注入变形 1&#xff0c;依然是一个登录框&#xff0c;POST型SQL注入 2&#xff0c;挂上burpsuite&#xff0c;然后抓取请求&#xff0c;构造请求判断漏洞类型和闭合条件 admin 发生了报错&#xff0c;根据提示闭合方式是(…...

2025-03-04 学习记录--C/C++-PTA 习题5-4 使用函数求素数和

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、题目描述 ⭐️ 二、代码&#xff08;C语言&#xff09;⭐️ #include <stdio.h>// 函数声明&#xff1a;判断一个数是…...

Mybatis-Plus 插件机制与自定义插件实现

1. Mybatis-Plus 插件系统概述 Mybatis-Plus 提供了一个简单而强大的插件机制&#xff0c;允许开发者在 MyBatis 执行 SQL 的过程中插入自定义逻辑。通过插件机制&#xff0c;用户可以实现对 SQL 执行过程的拦截和修改。Mybatis-Plus 插件基于 MyBatis 的拦截器模式进行实现&a…...

Virtuose 6D TAO HF力反馈系统:加强力遥操作主手

Virtuose 6D TAO是一款搭载六主动自由度的力反馈设备&#xff0c;该产品自带被动式夹持器&#xff0c;工作空间大&#xff0c;可与EtherCAT接口通信&#xff0c;是轻松控制从机械臂的首选产品&#xff0c;特别适合工业遥操作、核工业遥操作等应用。 产品特点 ▪ 六主动自由度、…...

使用AI后为什么思考会变得困难?

使用AI后为什么思考会变得困难&#xff1f; 我总结了四篇近期的研究论文&#xff0c;来展示AI是如何以及为什么侵蚀我们的批判性思维能力。 作者使用AI制作的图像 前言&#xff1a;作者在这篇文章中&#xff0c;借AI技术的崛起&#xff0c;揭示了一场悄然发生的思想博弈。表面…...

【Resis实战分析】Redis问题导致页面timeout知识点分析

事故现象&#xff1a;前端页面返回timeout 事故回溯总结一句话&#xff1a; &#xff08;1&#xff09;因为大KEY调用量&#xff0c;随着白天自然流量趋势增长而增长&#xff0c;最终在业务高峰最高点期占满带宽使用100%。 &#xfeff; &#xfeff; &#xff08;2&#x…...

【金融量化】Ptrade中交易环境支持的业务类型

1. 普通股票买卖 • 特点&#xff1a; 普通股票买卖是最基础的交易形式&#xff0c;投资者通过买入和卖出上市公司的股票来获取收益。 ◦ 流动性高&#xff1a;股票市场交易活跃&#xff0c;买卖方便。 ◦ 收益来源多样&#xff1a;包括股价上涨的资本利得和公司分红。 ◦ 风险…...

FlashMLA(DeepSeek开源周,第一个框架):含源码分析

1. 概述 FlashMLA 是由 DeepSeek 原创开发的一种深度学习框架&#xff0c;专门用于加速多头注意力机制&#xff08;MLA&#xff09;架构的推理过程。它通过优化内存管理和计算效率&#xff0c;显著提升了模型在高性能 GPU 上的推理速度。FlashMLA 主要适用于 DeepSeek 的架构模…...

点大商城V2-2.6.6.1全能版源码+最新排队免单插件功能

一.介绍 点大商城V2独立开源版本&#xff0c;版本更新至2.6.6&#xff0c;系统支持多端&#xff0c;前端为UNiapp&#xff0c;多端编译。 二.安装环境&#xff1a; Nginx 1.22PHP7.3MySQL 5.7 推荐PHP 7.3&#xff08;不得大于此版本&#xff0c;否则容易出bug&#xff09; …...