当前位置: 首页 > article >正文

CANN具身智能世界模型指南

cosmos-transfer2.5-2B视频风格转换具身智能世界模型昇腾使用指南【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligencecosmos-transfer2.5-2B整体介绍论文题目World Simulation with Video Foundation Models for Physical AI中文译文基于视频基础模型的物理智能世界仿真功能介绍Cosmos-Transfer2.5是NVIDIA Cosmos平台的世界基础模型(World Foundation Models)之一,专为物理AI应用设计的多控制网络模型。该模型支持视频风格转换功能,可基于多种控制信号(深度图、语义分割、边缘检测等)实现视频到视频的风格迁移与内容转换,将输入视频转换为符合特定视觉风格或场景需求的输出视频。模型支持接收多种视频模态的结构化输入,包括RGB、深度图、语义分割、边缘检测等,可用于自动驾驶场景模拟、机器人视觉仿真、视频内容创作等真实物理系统场景。本样例基于NVIDIA Cosmos-Transfer2.5-2B模型完成NPU适配优化,实现在昇腾NPU上的高效推理。Cosmos-transfer2.5-2B 的相关代码仓拉取如果昇腾环境中未安装 git-lfs请先根据您的主机 CPU 架构选择合适的版本进行安装ARM64/AArch64 架构下载 git-lfs-linux-arm64-v3.7.1.tar.gzx86_64/AMD64 架构下载 git-lfs-linux-amd64-v3.7.1.tar.gz查看 CPU 架构命令uname -m输出aarch64或arm64→ 选择 ARM64 版本输出x86_64→ 选择 AMD64 版本下载完成后解压缩并执行以下步骤进行安装# 赋权限 chmod x install.sh ./install.sh # 验证git-lfs的安装版本 git lfs --version# 进入需要放置代码仓的本地目录下,执行下面的指令进行代码拉取替换 git clone https://gitcode.com/cann/cann-recipes-embodied-intelligence.git git clone https://github.com/nvidia-cosmos/cosmos-transfer2.5.git cd cosmos-transfer2.5 git checkout 8b0e6af4b3bed40408c5762e528cb4e2a233f278 git lfs pull # 回退到放置代码仓的本地目录 cd ../ cp -rf cann-recipes-embodied-intelligence/world_model/cosmos-transfer2.5/* ./cosmos-transfer2.5完成上述操作之后最终cosmos-transfer2.5根目录中相关代码目录树详见附录根目录相关代码目录树。Cosmos-transfer2.5-2B在昇腾A3上的运行环境配置与昇腾平台相关的环境配置安装CANN软件包。本样例的编译执行依赖CANN开发套件包cann-toolkit与CANN二进制算子包cann-kernels支持的CANN软件版本为CANN 8.3.RC1。请从软件包下载地址下载Ascend-cann-toolkit_${version}_linux-${aarch}.run与Atlas-A3-cann-kernels_${version}_linux-${aarch}.run软件包并参考CANN安装文档依次进行安装。${version}表示CANN包版本号如 8.3.RC1${aarch}表示CPU架构如aarch64、x86_64# ${cann_install_path}为CANN包的实际安装目录注意每次新建终端时首先source一下set_env.sh。 # 方式1默认路径安装以root用户为例 source /usr/local/Ascend/ascend-toolkit/set_env.sh # 方式2指定路径进行安装 source ${cann_install_path}/ascend-toolkit/set_env.shuv环境管理工具安装可选如果当前环境已经安装uv可以跳过wget -qO- https://astral.sh/uv/install.sh | shffmpeg多媒体处理工具安装(版本4.4.2)# 进入cosmos-transfer2.5代码仓根目录 cd cosmos-transfer2.5 chmod x ffmpeg_install.sh ./ffmpeg_install.shdecord(版本0.6.0)安装注意和ffmpeg放置在同一文件夹下# 再次返回到cosmos-transfer2.5代码仓根目录 cd cosmos-transfer2.5 # 执行下面的指令进行decord安装 chmod x decord_install.sh ./decord_install.sh安装libGL# euler环境指令如下 yum install -y libGL libGLU libEGL libX11-devel与昇腾服务器无关的其他环境配置# 创建运行环境 uv syncCosmos-Transfer2.5-2B在昇腾上的推理步骤运行下面的代码即可自动下载多个关联模型然后进行模型推理。# 再次返回到cosmos-transfer2.5代码仓根目录 cd cosmos-transfer2.5 #适配npu chmod x npu_adapt.sh ./npu_adapt.sh # 激活uv虚拟环境 source .venv/bin/activate # 执行下面的推理命令进行视频生成会自动下载huggingface上的模型到~/.cache/huggingface/hub/文件夹中 python examples/inference.py \ -i assets/robot_example/multicontrol/robot_multicontrol_spec.json \ -o outputs/multicontrol \ --disable-guardrails如需使用多NPU推理运行下面代码使用torchrun启动命令。ASCEND_RT_VISIBLE_DEVICES0,1,2,3,4,5,6,7 torchrun --nproc_per_node8 --master_port12341 examples/inference.py \ -i assets/robot_example/multicontrol/robot_multicontrol_spec.json \ -o outputs/multicontrol \ --disable-guardrailsCosmos-transfer2.5-2B在昇腾上的精度验证步骤基于视频观察和PAI-BENCH测试方法来验证其在昇腾A3上的推理精度和NVIDIA平台生成的预测视频进行对比观察A3环境生成视频是否一致。PAI-BENCH测试方案参考PAI-BENCH测试框架中的PAI-Bench-C(Conditional Video Generation)部分进行预测视频的质量评估。执行PAI-BENCH测试脚本之后会在路径下生成一个json文件其中包含了多项精度指标评估的质量分数参考下列的数值范围(1)blur_ssim [0.82,0.84](2)canny_f1_score [0.32,0.35](3)depth_si_rmse [0.90,0.95](4)seg_m_iou [0.66,0.68]Citationmisc{nvidia2025worldsimulationvideofoundation, title{World Simulation with Video Foundation Models for Physical AI}, author{NVIDIA and : and Arslan Ali and Junjie Bai and Maciej Bala and Yogesh Balaji and Aaron Blakeman and Tiffany Cai and Jiaxin Cao and Tianshi Cao and Elizabeth Cha and Yu-Wei Chao and Prithvijit Chattopadhyay and Mike Chen and Yongxin Chen and Yu Chen and Shuai Cheng and Yin Cui and Jenna Diamond and Yifan Ding and Jiaojiao Fan and Linxi Fan and Liang Feng and Francesco Ferroni and Sanja Fidler and Xiao Fu and Ruiyuan Gao and Yunhao Ge and Jinwei Gu and Aryaman Gupta and Siddharth Gururani and Imad El Hanafi and Ali Hassani and Zekun Hao and Jacob Huffman and Joel Jang and Pooya Jannaty and Jan Kautz and Grace Lam and Xuan Li and Zhaoshuo Li and Maosheng Liao and Chen-Hsuan Lin and Tsung-Yi Lin and Yen-Chen Lin and Huan Ling and Ming-Yu Liu and Xian Liu and Yifan Lu and Alice Luo and Qianli Ma and Hanzi Mao and Kaichun Mo and Seungjun Nah and Yashraj Narang and Abhijeet Panaskar and Lindsey Pavao and Trung Pham and Morteza Ramezanali and Fitsum Reda and Scott Reed and Xuanchi Ren and Haonan Shao and Yue Shen and Stella Shi and Shuran Song and Bartosz Stefaniak and Shangkun Sun and Shitao Tang and Sameena Tasmeen and Lyne Tchapmi and Wei-Cheng Tseng and Jibin Varghese and Andrew Z. Wang and Hao Wang and Haoxiang Wang and Heng Wang and Ting-Chun Wang and Fangyin Wei and Jiashu Xu and Dinghao Yang and Xiaodong Yang and Haotian Ye and Seonghyeon Ye and Xiaohui Zeng and Jing Zhang and Qinsheng Zhang and Kaiwen Zheng and Andrew Zhu and Yuke Zhu}, year{2025}, eprint{2511.00062}, archivePrefix{arXiv}, primaryClass{cs.CV}, url{https://arxiv.org/abs/2511.00062}, } misc{zhou2025paibenchcomprehensivebenchmarkphysical, title{PAI-Bench: A Comprehensive Benchmark For Physical AI}, author{Fengzhe Zhou and Jiannan Huang and Jialuo Li and Deva Ramanan and Humphrey Shi}, year{2025}, eprint{2512.01989}, archivePrefix{arXiv}, primaryClass{cs.CV}, url{https://arxiv.org/abs/2512.01989}, }附录根目录相关代码目录树检查整体代码目录树经过上述的复制及替换操作cosmos-transfer2.5适配昇腾的根目录中的最终相关代码目录树如下所示cosmos-transfer2.5 ├── adaptor_patches │ ├── graph_patch.py │ ├── inference_patch.py │ ├── minimal_v4_dit_patch.py │ ├── minimal_v4_lvg_dit_control_vace_patch.py │ └── qwen2_5_vl_patch.py ├── cosmos_transfer2 │ └── __init__.py ├── decord_install.sh ├── examples │ ├── inference.py │ └── model_adaptor.py ├── ffmpeg_install.sh ├── npu_adapt.sh ├── packages │ └── cosmos-oss │ ├── cosmos_oss │ │ └── __init__.py │ └── pyproject.toml ├── pyproject.toml └── README.md【免费下载链接】cann-recipes-embodied-intelligence本项目针对具身智能业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN具身智能世界模型指南

cosmos-transfer2.5-2B视频风格转换具身智能世界模型昇腾使用指南 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-i…...

别再只盯着原理了!深入MOS管米勒平台,看懂缓启动电路性能优化的关键

深入MOS管米勒平台:缓启动电路性能优化的关键策略 在电源系统设计中,缓启动电路的重要性往往被低估。许多工程师满足于实现基本功能,却忽略了性能优化的深层机理。当面对更快的稳定时间要求或更精确的电流控制需求时,仅理解基础工…...

CANN pi0.5昇腾推理指南

pi0.5机器人VLA大模型昇腾使用指南 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence pi0.5整体介绍…...

CANN/sip批量矩阵向量乘法

CgemvBatched 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 产品支持情况 产品是否支持Atlas 200I/500 A2 推…...

M-LLM 赋能高效视频理解:基于帧选择的优化策略深度解析

随着短视频平台的蓬勃发展,视频数据的爆炸式增长给视频理解带来了巨大的挑战。传统的视频理解方法往往需要处理大量的视频帧,计算成本高昂。为了解决这个问题,研究人员提出了基于 M-LLM (Multimodal Large Language Model) 的视频帧选择策略&…...

Balena Etcher:极致安全的跨平台镜像烧录工具深度解析

Balena Etcher:极致安全的跨平台镜像烧录工具深度解析 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher 还在为制作启动盘而烦恼吗?无论是树…...

CANN PTO自动模式总览

auto模式总览 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend p…...

AzurLaneAutoScript深度解析:碧蓝航线自动化脚本的技术架构与实践应用

AzurLaneAutoScript深度解析:碧蓝航线自动化脚本的技术架构与实践应用 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript…...

3步解锁高效工作流:KeymouseGo终极鼠标键盘自动化指南

3步解锁高效工作流:KeymouseGo终极鼠标键盘自动化指南 【免费下载链接】KeymouseGo 类似按键精灵的鼠标键盘录制和自动化操作 模拟点击和键入 | automate mouse clicks and keyboard input 项目地址: https://gitcode.com/gh_mirrors/ke/KeymouseGo 你是否厌…...

如何用ContextMenuManager一键净化Windows右键菜单:3个核心功能完全指南

如何用ContextMenuManager一键净化Windows右键菜单:3个核心功能完全指南 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾因Windows右键菜单臃…...

CANN/catlass 3D卷积偏置算子示例

ConvBias Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码组织 ├── 24_conv_bias │ ├── CMakeLists.txt # CMake编译文…...

CANN/catlass优化矩阵乘示例

OptimizedMatmul Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码组织 ├── 06_optimized_matmul │ ├── CMakeLists.txt …...

基于Python标准库构建本地代码解释器:原理、实现与应用

1. 项目概述:一个本地化的代码解释器最近在折腾一些自动化脚本和数据处理任务时,我常常遇到一个场景:手头有一段代码片段,想快速验证一下它的逻辑或者看看输出结果,但要么得打开一个笨重的IDE,要么得在命令…...

【收藏】2026年AI行业最大的机会,毫无疑问就在应用层!

🔥小白必看|程序员速收藏!2026年AI风口已至,错过再等三年! 字节跳动早已嗅到风口,7个核心团队全速布局Agent智能体,从抖音安全业务到全场景落地,持续加码AI应用层布局;腾…...

Meta发布的代码AI会黑进你的电脑吗?

这项由Meta AI安全实验室(MSL Preparedness Team与AI Security Team)联合完成的评估报告,于2026年5月5日正式发布,论文编号为arXiv:2605.00932v1,归类于计算机软件工程(cs.SE)领域,有…...

CANN/runtime Device P2P示例

2_device_P2P 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了如何在多个Device之间进行切换,并进行内存复制。 产品支持情况 本样例支持以下产品: 产品是…...

CANN/pypto余弦计算函数文档

pypto.cos 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atla…...

深度图像先验:基于PyTorch的水印去除终极指南

深度图像先验:基于PyTorch的水印去除终极指南 【免费下载链接】Watermark-Removal-Pytorch 🔥 CNN for Watermark Removal using Deep Image Prior with Pytorch 🔥. 项目地址: https://gitcode.com/gh_mirrors/wa/Watermark-Removal-Pytor…...

如何将网易云音乐NCM文件转换为通用MP3格式:ncmdumpGUI完整教程

如何将网易云音乐NCM文件转换为通用MP3格式:ncmdumpGUI完整教程 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的…...

AlphaRank:基于深度强化学习的固定预算排序选择算法

1. 项目概述:当排序遇上预算,一个算法的诞生在数据驱动的决策场景里,我们常常面临一个经典难题:给你一笔固定的“预算”(比如计算资源、测试时间、广告费用),面前摆着一堆候选对象(比…...

AI模型协议桥接器:用OpenAI API无缝调用Gemini与MCP服务

1. 项目概述:一个连接不同AI世界的“翻译官” 最近在折腾AI应用开发,特别是想把不同的大模型能力整合到自己的自动化流程里。相信很多开发者都遇到过类似的问题:你手头有一套基于OpenAI API构建的工具链,无论是代码生成、数据分析…...

告别环境配置噩梦:用VS2019属性表在Win10上优雅部署YOLOv8 TensorRT模型

告别环境配置噩梦:用VS2019属性表在Win10上优雅部署YOLOv8 TensorRT模型 在Windows平台上部署深度学习模型,环境配置往往是开发者最头疼的问题之一。每次新建项目都要重复配置CUDA、TensorRT、OpenCV等依赖库的路径,不仅耗时耗力&#xff0c…...

从商场换灯到建桥选址:5个真实案例带你吃透工程经济学决策方法

从商场换灯到建桥选址:5个真实案例带你吃透工程经济学决策方法 在商业决策中,每分钱都需要精打细算。想象一下,你是一家商场的运营经理,面对200盏需要更换的灯具,是选择价格便宜但耗电量高的传统节能灯,还是…...

别再死记BN公式了!用Python手搓一个BatchNorm层,彻底搞懂训练和测试的区别

从零实现BatchNorm层:用代码透视深度学习的归一化魔法 在深度学习的世界里,Batch Normalization(BN)就像一位隐形的调音师,默默调整着神经网络每层输出的"音准"。许多教程止步于数学公式的推导,却…...

AI对齐安全:从规范博弈到涌现目标的技术挑战与实战应对

1. 项目概述:当AI开始“耍心眼”最近和几个做AI安全的朋友聊天,大家都有个共同的感受:现在的AI模型,尤其是大语言模型,越来越“聪明”了,但这种聪明有时会让人后背发凉。它不再只是机械地执行指令&#xff…...

抖音批量下载工具完整指南:免费快速获取无水印视频

抖音批量下载工具完整指南:免费快速获取无水印视频 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support.…...

昇腾CANN单算子参数Dump示例

0_adump_args 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本用例展示了单算子执行场景下如何管理Dump算子信息,并将算子信息文件输出到path参数指定的目录,主线程中设…...

量化开发资源库:从Python数据处理到回测框架的完整指南

1. 项目概述:量化开发者资源库的诞生与价值 在金融科技领域,量化开发是一个门槛极高、信息又极度分散的领域。新手入门时,常常会陷入一种困境:知道需要学习Python、统计学、金融知识,但面对浩如烟海的库、框架、论文和…...

AI与运筹优化融合:从预测后优化到端到端决策的实战解析

1. 项目概述:当运筹优化遇见人工智能在运筹学与工业工程领域干了十几年,我最大的感触是:最耗时的往往不是求解一个模型,而是“造”出这个模型本身。传统的优化建模高度依赖领域专家的经验,他们需要将模糊的业务需求&am…...

AI驱动的自动化渗透测试智能体:架构、原理与红队实战应用

1. 项目概述:一个专为“红队”设计的自动化智能体最近在安全研究社区里,一个名为zack-dev-cm/hh-openclaw-agent的项目引起了我的注意。这个名字听起来有点神秘,但如果你对网络安全,特别是渗透测试和红队行动有所了解,…...