当前位置: 首页 > news >正文

【cutlass】cuTe 01 layout

简介

Layout将坐标映射到地址空间,其对阵列单元在内存中如何排布进行抽象,并提供了获取多维阵列的接口。用户可以以正常的方式(不需要做复杂的地址计算)写多维阵列存取代码,对于存取的不同方式可以改变Layout来实现,而不需要改代码。cuTe提供了对Layout的操作算法,这些方式可以组合/拆分以构建更复杂的layout。

Layout和Tensor的关系

Layout的逻辑地址空间表示了数据的逻辑形状,它和data共同组成了Tensor。Layout把逻辑地址映射到了一个index,index是一个偏移量用来索引地址数据。

Contains

一个Layout包含了Shape和Stride,他们都是IntTuple类型。IntTuple是通过一个单独的整数或者一个IntTuple的Tuple递归定义的。这意味着IntTuple可以任意组合到一起,包含了以下运算:

  • get(IntTuple):获取IntTuple的第I个单元,如果IntTuple只有一个整数单元那get<0>就是得到这个单元。
  • rank(IntTuple):IntTuple中elements的数量,单独的整数rank是1,一个tuple的rank是tuple_size。
  • depth(IntTuple):IntTuple的层数。一个单独的整数depth是0,一个tuple是1,一个tuple中含有另一个tuple是2,以此类推。
  • size(IntTuple):IntTuple中所有element的乘积
    我们用括号写“IntTuple”来表示层次结构。比如6, (2), (4,3), (3,(6,2),8) 都是IntTuple。

IntTuple和Layout是可以嵌套使用的,为了方便使用,cutlass定义了一些方便使用的函数,比如get<I0,I1,…,IN>(x) = get(…(get(get(x)))…)。这些函数包括:

  • rank<I…>(x) := rank(get<I…>(x)):第I个单元的rank
  • depth<I…>(x) := depth(get<I…>(x)):第I个单元的depth
  • size<I…>(x) := size(get<I…>(x)):第I个单元的size

例子

  • 向量
    • shape: (8); stride: (1) 代表了一个8个单元的向量(0,1,2,3,4,5,6,7)。如果stride为(2),则向量变为(0,2,4,6,8,10,12,14); 如果想要代表(0,1,2,3,4,5,6,7)八个数也可以按照 shape:((4,2)) stride:((1,4))放入内存中
  • 矩阵
    • shape: (4,2);stride: (1,4) 代表
      0 4
      1 5
      2 6
      3 7
    • 每个矩阵的模式都可以切分成多指数,比如shape: ((2,2),2);stride: ((4,1),2)代表
      0 2
      4 6
      1 3
      5 7

c++实现方式

Layout可以通过compile-time int或者 run-time int构建,如下

auto layout_8s = make_layout(Int<8>{});
auto layout_8d = make_layout(8);auto layout_2sx4s = make_layout(make_shape(Int<2>{},Int<4>{}));
auto layout_2sx4d = make_layout(make_shape(Int<2>{},4));auto layout_2x4 = make_layout(make_shape (2, make_shape (2,2)),make_stride(4, make_stride(2,1)));

其中make_layout函数返回一个Layout类型,类似的make_shape和make_stride函数返回一个shape和stride类型。

对Layout的使用是将坐标和索引相关联,比如打印一个Layout

template <class Shape, class Stride>
void print2D(Layout<Shape,Stride> const& layout)
{for (int m = 0; m < size<0>(layout); ++m) {for (int n = 0; n < size<1>(layout); ++n) {printf("%3d  ", layout(m,n));}printf("\n");}
}

总结

  • layout的shape定义了坐标空间
      • 每个layout都有一个一维的坐标空间。这个可以用来产生一个“通用colum-major”序列
      • 每个layout都有R维坐标空间,其中R是layout的rank。这个空间按照colexicographically(从右到左)排序,对序列的枚举与上面所说的一维类似。
      • 每个layout有h维坐标空间,其中h是层级。这个空间也是按照colexicographically排序,对序列的枚举与上面所说的一维类似。
    • h维坐标相对于shape都是连续的,这样坐标上的每个element都有相应的shape element
  • layout的stride将坐标空间映射为地址
    • 通常情况,这种映射可以是一个从一维到地址的任意函数
    • 在cuTe中,我们使用一个内置推导,他是一个具有stride元素的h维坐标

相关文章:

【cutlass】cuTe 01 layout

简介 Layout将坐标映射到地址空间&#xff0c;其对阵列单元在内存中如何排布进行抽象&#xff0c;并提供了获取多维阵列的接口。用户可以以正常的方式&#xff08;不需要做复杂的地址计算&#xff09;写多维阵列存取代码&#xff0c;对于存取的不同方式可以改变Layout来实现&a…...

迁移学习

迁移学习 什么是迁移学习 迁移学习【斯坦福21秋季&#xff1a;实用机器学习中文版】 迁移学习&#xff08;Transfer Learning&#xff09;是一种机器学习方法&#xff0c;它通过将一个领域中的知识和经验迁移到另一个相关领域中&#xff0c;来加速和改进新领域的学习和解决问…...

基于session实现共享登录

基于session实现登录 1.发送短信验证码 Override public Result sendCode(String phone, HttpSession session) {//1.校验手机号是否合规if (RegexUtils.isPhoneInvalid(phone)) {//2.不合规直接返回 错误信息return Result.fail("手机号错误");}//3.如果合规生成验…...

Hudi学习笔记1

使用注意 从 0.10.0 版本开始&#xff0c;primaryKey 为必须的&#xff0c;不再支持没有主键的表。 primaryKey、primaryKey 和 type 均大小写敏感。 对于 MOR 类型的表&#xff0c;preCombineField 为必须的。 当设置 primaryKey、primaryKey 或 type 等 hudi 配置时&#…...

嚯——ChatGPT是很强,但也会胡说八道。。。

现在的ChatGPT确实强&#xff0c;但是也会一本正经的胡说八道&#xff0c;例如它回答“nineteen”中有12个字母、或是旗鱼是哺乳动物…… 尽管ChatGPT可以生成流畅甚至优雅的散文&#xff0c;轻松通过困扰了AI领域超过70年的图灵测试基准&#xff0c;但它也可能看起来非常愚蠢…...

Springboot常用注解总结

目录 一、什么是Spring Boot二、Spring常用注解三、Spring Boot常用注解1、SpringBootApplication2、ImportAutoConfiguration3、SpringBootConfiguration4、ImportResource5、PropertySource6、PropertySources7、Role8、Scope9、Lazy11、Profile12、DependsOn13、PostConstru…...

让chatGPT给我写一个CSS,我太蠢了

前言 CSS这东西&#xff0c;让AI写的确有点难度&#xff0c;毕竟它写出来的东西&#xff0c;没办法直接预览&#xff0c;这是其次。重要的是CSS这东西怎么描述&#xff0c;不好描述啊&#xff0c;比如我让他给我制作一个这样的效果出来&#xff0c;没办法描述&#xff0c;所以…...

华为OD题目:分奖金

分奖金 知识点栈时间限制: 1s 空间限制: 256MB 限定语言: 不限 题目描述: 公司老板做了一笔大生意&#xff0c;想要给每位员工分配一些奖金&#xff0c;想通过游戏的方式来决定每个人分多少钱。 按照员工的工号顺序&#xff0c;每个人随机抽取一个数字。按照工号的顺序往后排列…...

【算法题】2401. 最长优雅子数组

插&#xff1a; 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 坚持不懈&#xff0c;越努力越幸运&#xff0c;大家一起学习鸭~~~ 题目&#xff1a; 给你一个由 正 整数组成的数组 num…...

【Vue】Vue快速入门

Vue快速入门 Vue.js的引入 要先有一个vue.js文件&#xff0c;可以在vue官网下载&#xff0c;将其复制到项目中并在html页面中进行引入&#xff1a; 在head标签内引入&#xff0c;src内是vue的路径 <!-- 引入vue.js--><script language"JavaScript" s…...

二本菜鸡,颓废两年的自我救赎

大家好&#xff0c;我是帅地。 随着校招的结束&#xff0c;帅地的星球里也有不少小伙伴前来报喜&#xff0c;今天这篇&#xff0c;是星球一个颓废两年同学的自我救赎之路&#xff0c;我觉得他的经历和很多人一样&#xff0c;前两年可能就颓废了&#xff0c;后面才后知后觉&…...

Spring boot 常用注解

SpringBootApplication&#xff1a;用于启动Spring Boot应用程序的主类上&#xff0c;组合了Configuration、EnableAutoConfiguration和ComponentScan三个注解。 RestController &#xff1a;修饰类&#xff0c;使用RestController注解的Controller中的方法默认返回值都会以JS…...

mysql从零开始(05)----锁

全局锁 使用 # 启用全局锁 flush tables with read lock # 释放全局锁 unlock tables开启全局锁后&#xff0c;整个数据库就处于只读状态了&#xff0c;这种状态下&#xff0c;对数据的增删改操作、对表结构的更改操作都会被阻塞。 另外&#xff0c;当会话断开&#xff0c;全…...

《Linux 内核设计与实现》03. 进程管理

文章目录 进程描述符及任务结构分配进程描述符进程描述符的存放进程状态设置当前进程状态进程上下文进程家族树 进程创建线程在 Linux 中的实现创建线程内核线程 进程终结删除进程描述符孤儿进程 进程描述符及任务结构 内核把进程存放在任务队列&#xff08;task list&#xf…...

深入探究HDFS:高可靠、高可扩展、高吞吐量的分布式文件系统【上进小菜猪大数据系列】

上进小菜猪&#xff0c;沈工大软件工程专业&#xff0c;爱好敲代码&#xff0c;持续输出干货。 引言 在当今数据时代&#xff0c;数据的存储和处理已经成为了各行各业的一个关键问题。尤其是在大数据领域&#xff0c;海量数据的存储和处理已经成为了一个不可避免的问题。为了应…...

GIMP制作艺术字技巧

GIMP下载官网 https://www.gimp.org/downloads/ 我使用的版本 2.10.32 字体下载 https://ziyouziti.com/index-index-all.html 下载解压之后会有otf、ttf等字体文件&#xff0c;需要拷贝到gimp当前用户目录 C:\Users\用户名\AppData\Roaming\GIMP\2.10\fonts GIMP绘制字…...

Redis 布隆过滤器总结

Redis 布隆过滤器总结 适用场景 大数据判断是否存在来实现去重&#xff1a;这就可以实现出上述的去重功能&#xff0c;如果你的服务器内存足够大的话&#xff0c;那么使用 HashMap 可能是一个不错的解决方案&#xff0c;理论上时间复杂度可以达到 O(1) 的级别&#xff0c;但是…...

云基础设施安全:7个保护敏感数据的最佳实践

导语&#xff1a;云端安全防护进行时&#xff01; 您的组织可能会利用云计算的实际优势&#xff1a;灵活性、快速部署、成本效益、可扩展性和存储容量。但是&#xff0c;您是否投入了足够的精力来确保云基础设施的网络安全&#xff1f; 您应该这样做&#xff0c;因为数据泄露、…...

centos7安装nginx

1.配置环境 1).gcc yum install -y gcc2).安装第三方库 pcre-devel yum install -y pcre pcre-devel3).安装第三方库 zlib yum install -y zlib zlib-devel2.下载安装包并解压 nginx官网下载&#xff1a;http://nginx.org/en/download.html 或者 使用wget命令进行下载 wg…...

PyQt5 基础篇(一)-- 安装与环境配置

1 PyQt5 图形界面开发工具 Qt 库是跨平台的 C 库的集合&#xff0c;是最强大的 GUI 库之一&#xff0c;可以实现高级 API 来访问桌面和移动系统的各种服务。PyQt5 是一套 Python 绑定 Digia QT5 应用的框架。PyQt5 实现了一个 Python模块集&#xff0c;有 620 个类&#xff0c;…...

OpenClaw安全实践:Qwen3-4B模型操作本地文件的权限管控

OpenClaw安全实践&#xff1a;Qwen3-4B模型操作本地文件的权限管控 1. 为什么需要关注OpenClaw的文件权限 上周我在整理季度财报时&#xff0c;突然发现OpenClaw自动把临时工作目录里的草稿文件同步到了云盘——这个意外让我惊出一身冷汗。作为深度使用OpenClawQwen3-4B组合的…...

Ostrakon-VL面试题库解析:如何应对视觉AI相关的Java八股文

Ostrakon-VL面试题库解析&#xff1a;如何应对视觉AI相关的Java八股文 1. 视觉AI与Java后端的结合点 视觉AI技术在Java后端开发中的应用越来越广泛&#xff0c;特别是在Ostrakon-VL这类多模态大模型场景下。作为Java开发者&#xff0c;需要掌握以下几个核心结合点&#xff1a…...

AgentCPM与JavaScript全栈开发:实时交互式研报问答机器人实现

AgentCPM与JavaScript全栈开发&#xff1a;实时交互式研报问答机器人实现 最近在做一个挺有意思的项目&#xff0c;想和大家聊聊怎么用JavaScript全栈技术&#xff0c;把一个强大的AI分析模型变成一个能实时对话的网页应用。想象一下&#xff0c;你打开一个网页&#xff0c;输…...

Ostrakon-VL终端基础教程:Streamlit Session State管理多轮扫描会话

Ostrakon-VL终端基础教程&#xff1a;Streamlit Session State管理多轮扫描会话 1. 像素特工终端简介 Ostrakon-VL扫描终端是一款专为零售与餐饮场景设计的交互式图像识别工具。它基于Ostrakon-VL-8B多模态大模型构建&#xff0c;采用独特的8-bit像素艺术风格界面&#xff0c…...

华为eNSP实战:3种方法搞定VLAN间通信(附完整配置命令)

华为eNSP实战&#xff1a;VLAN间通信的3种工程化解决方案深度解析 刚接触企业级网络时&#xff0c;最让我困惑的就是不同部门间的网络隔离与互通问题。财务部的电脑为什么不能直接访问研发部的服务器&#xff1f;为什么同一个物理交换机下的设备会被划分到不同的广播域&#xf…...

OpenClaw+千问3.5-35B-A3B-FP8:24小时运行的竞品监测系统

OpenClaw千问3.5-35B-A3B-FP8&#xff1a;24小时运行的竞品监测系统 1. 为什么需要个人级竞品监测系统 去年在做独立产品时&#xff0c;我每天要手动检查5个竞品官网的更新情况。重复的复制粘贴、版本号比对、功能点记录消耗了大量时间。直到发现OpenClaw千问3.5的组合&#…...

OpenClaw安全加固:Qwen3-14B镜像操作权限精细控制方案

OpenClaw安全加固&#xff1a;Qwen3-14B镜像操作权限精细控制方案 1. 为什么需要安全加固&#xff1f; 去年我在尝试用OpenClaw自动整理财务报告时&#xff0c;差点酿成大错——脚本误删了原始Excel文件。这次经历让我意识到&#xff1a;当AI能直接操作系统时&#xff0c;安全…...

拓扑数据分析(TDA)全解析:当AI为科学注入“形状”灵魂

拓扑数据分析&#xff08;TDA&#xff09;全解析&#xff1a;当AI为科学注入“形状”灵魂 引言 在人工智能&#xff08;AI&#xff09;赋能科学研究的浪潮中&#xff0c;一种名为拓扑数据分析&#xff08;Topological Data Analysis, TDA&#xff09;的技术正悄然改变我们理解高…...

基于OpenCV与霍夫变换的五子棋棋盘状态智能识别

1. 从图像到数字棋盘&#xff1a;五子棋识别的技术脉络 第一次尝试用摄像头识别五子棋棋盘时&#xff0c;我盯着屏幕上歪歪扭扭的检测结果哭笑不得。棋盘边缘像被狗啃过&#xff0c;棋子位置飘忽不定&#xff0c;白棋黑棋傻傻分不清楚——这大概是每个计算机视觉初学者都会经历…...

OpenClaw配置备份:Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF模型迁移指南

OpenClaw配置备份&#xff1a;Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF模型迁移指南 1. 为什么需要配置备份与迁移 上周我的主力开发机突然硬盘故障&#xff0c;导致所有OpenClaw配置丢失。当时正在运行的3个自动化流程全部中断&#xff0c;包括每天定时执行的日报生…...