当前位置: 首页 > article >正文

CANN/cann-recipes-infer:NPU DeepSeek-V4 TileLang算子开发实践

NPU DeepSeek-V4 TileLang算子开发实践【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer简介在大模型异构计算发展背景下GPU 端成熟模型及新算子向昇腾 NPU 的跨平台迁移Tilelang-Ascend 作为昇腾 CANN 生态原生算子开发框架深度契合昇腾 NPU 硬件架构特性采用声明式编程范式大幅降低开发门槛。框架内置丰富硬件原语与性能优化策略可充分释放 NPU 算力同时具备极强的新算子快速适配能力支持 GPU 算子逻辑高效迁移重构无需深入底层硬件细节即可完成算子开发优化显著缩短迁移周期。Tilelang-Ascend代码仓助力开发者快速开展昇腾平台算子开发工作。同时在此工作中我们也覆盖了 TileKernels 中的mhc算子。HighLightsTilelang-Ascend具有适配大模型开发的显著优势。在开发易用性方面Tilelang-Ascend致力于实现语法简洁、思路清晰的编程模式用简单代码实现高性能复杂算子**易用性强。**高性能、低开发门槛开发者可以专注于算法逻辑忽略底层同步、内存等细节。**后端语言灵活。**灵活后端语言切换既有稳定的AscendC编程路径也有跨代际兼容的高性能PTO编程路径能够自动适配不同层级、硬件场景。**算子快速开发。**Tilelang-Ascend用极短的时间实现了DeepSeek新模型中SFA/MHC等复杂融合算子开发者可以快速利用Tilelang抽象建立算子模型并且有多种优化路径可选。在功能支撑方面Tilelang-Ascend同样以提升框架便捷性和高效性为核心Developer模式的框架新特性包含了以下新功能**自动流水同步。**CV 核间由硬件流水自动同步Tilelang-Ascend 自动化分析生成精准同步指令保障算子执行正确与高效。**自动内存复用。**Tilelang-Ascend 自动完成内存规划与复用分析生命周期并线性扫描分配提升 NPU 内存利用率与执行效率。**自动拆分跨核指令。**Tilelang-Ascend 编译器自动识别 CV 核操作支持指令混合编写自动完成同步调度与依赖管理。**流水并行语法糖。**T.Pipelined特性在编译时静态分析与代码转换实现计算与内存的重叠执行最大化硬件利用率显著提升计算密集任务的执行性能。**数据并行语法糖。**T.Parallel特性用直观语法表达Tile元素向量化计算并实现数据并行不暴露底层硬件细节提升编程体验与效率。Tilelang-Ascend框架特性介绍Tilelang-Ascend持续致力于在提升开发易用性、降低开发难度和代码量上努力。本次框架升级支持了Developer特性开发模式包括硬件流水自动同步核间与核内同步、内存地址自动复用、自动拆分CV指令及T.Parallel等核心原语操作从底层简化算子开发流程。原需手动实现的核间同步、内存规划、算力分配等复杂操作均由原语自动完成开发者无需深入硬件底层细节大幅降低对硬件认知的门槛。同时T.Parallel、T.Pipelined原语高效支撑并行计算开发从算力调度到资源复用全流程自动化显著降低开发难度、减少代码量让开发者聚焦核心算法设计提升算子开发效率与落地速度。1、硬件流水自动同步昇腾NPU芯片集成的Cube、Vector等计算单元是异步执行的CV核间同步通过硬件流水自动对齐各核执行节拍避免手动栅栏与等待核内同步由原语在指令级插入依赖与顺序控制确保数据就绪与访存一致。开发者只需声明并行与流水边界即可在多核协同与单核流水间获得稳定、高效的执行。Tilelang-Ascend通过自动化分析实现同步指令的精准生成兼顾算子执行的正确性与运行性能。下图介绍了硬件流水自动同步插入的实现逻辑硬件流水自动同步流程图循环与处理通过将for循环递归展开两份准确分析嵌套循环中的依赖关系。Buffer访问分析结合预定义配置集合确定指令操作所属的硬件流水线并解析对Buffer的读写操作。依赖分析与同步决策识别数据依赖并根据硬件特性决策同步插入的类型并通过同步图剔除冗余指令。识别 RAW写后读、WAW写后写、WAR读后写三类数据依赖。根据依赖关系和硬件特性决策同步类型同流水线用PipeBarrier跨流水线用EventPairSetFlag/WaitFlag。指令生成与循环重构展开后的循环进行重构得到原始嵌套结构并生成指令代码。硬件流水自动同步开启方式pass_configs { tilelang.PassConfigKey.TL_ASCEND_AUTO_CV_SYNC: True, # CV核间流水自动同步 tilelang.PassConfigKey.TL_ASCEND_AUTO_SYNC: True, # 核内流水自动同步 }2、内存规划与复用内存规划与复用由框架自动完成开发者无需手动分配与回收。传统的手动规划内存与手动复用存在很多挑战开发效率低下需要人工计算每个层级的偏移量且算子迭代成本高并且开发过程中容易出错、难以调试。Tilelang-Ascend根据算子依赖关系与生命周期分析智能布局缓冲区与中间张量减少碎片与冗余拷贝同时通过地址复用与双缓冲策略在保持数据一致性的前提下复用空闲内存显著降低峰值占用。配合流水并行与算力调度内存访问更连贯整体带宽利用率与执行效率同步提升。下图展示了内存自动规划与复用的实现逻辑内存规划与复用流程图Tilelang-Ascend通过Developer模式带来了内存规划与复用特性它完全替代人工 Offset 计算开发效率显著提升维度 / 类型变更无需手动适配。自动规避地址重叠、对齐错误消除内存超限 / 执行异常的人为因素。自动考虑内存复用降低总占用率 最大化利用昇腾 NPU 有限的共享内存资源。该特性 是面向昇腾NPU的核心内存优化组件通过精准的缓冲区生命周期分析与高效的线性扫描内存分配算法为每个buffer分配内存空间提高昇腾NPU内存利用率。缓存区生命周期分析遍历 TIR 抽象语法树AST全量采集昇腾 NPU 共享内存缓冲区的访问行为。标记每个缓冲区的 GEN生成/KILL销毁事件精准界定其活跃区间 [start, end]首次使用→最后一次使用的执行阶段。按昇腾硬件内存域分组缓冲区适配不同分区的内存上限约束。线性扫描分配算法按活跃区间起始位置排序缓冲区构建线性执行序列。维护活跃队列与空闲内存块池循环处理每个缓冲区的分配需求。智能分配策略优先复用已释放的空闲内存块无可用块时分配新内存所有操作遵循 32 字节硬件对齐规则。最终生成缓冲区到物理地址 Offset 的映射表address_map固化到函数属性指导执行。内存自动规划与复用开启方式pass_configs { tilelang.PassConfigKey.TL_ASCEND_MEMORY_PLANNING: True, # 内存自动规划与复用 }3、自动拆分CV指令在昇腾NPU编程中开发者面临着一种非自然的编程约束。由于硬件架构的CV分离特性开发者必须在代码中明确标注每段代码属于Cube还是Vector单元。这种显式作用域声明方式会带来开发困扰开发的割裂性破坏了代码的连贯性CV频繁切换导致代码和开发逻辑破碎同时会导致代码结构重复、调试跳跃性强定位问题困难。例如在Flash Attention融合算子中Vector核上的Softmax计算和Cube核上的矩阵乘计算会有多次复用同步的逻辑人工拆分对开发者并不友好。为了解决这些问题CV代码分离优化Pass应运而生。它的核心理念是让开发者专注于算法逻辑让编译器处理硬件适配。开发者按算法逻辑自然编写代码Pass自动识别哪些操作属于Cube哪些属于Vector。CV指令自动拆分示意图如上图所示Tilelang-Ascend的Developer模式允许用户忽略底层CV核的指令和硬件差异编写符合正常算法逻辑的代码。CV自动同步在编译期构建Cube/Vector依赖图识别跨核读写与数据就绪点自动插入同步指令与等待机制并进行流水重排与双缓冲优化保证核间数据一致与顺序正确。开发者仅需描述算法编译器即可完成核间调度与核内依赖管理减少手工拆分与同步代码。自动拆分CV指令开启方式pass_configs { tilelang.PassConfigKey.TL_ASCEND_AUTO_CV_COMBINE: True, # 自动拆分CV指令 }4、T.ParallelTilelang-Ascend编程模型中T.Parallel是用于表达 tile 内元素向量化计算 的核心原语。它在 IR 层以“并行循环”的形式描述数据并行而不直接暴露底层硬件指令细节可以让用户用符合编程思维的逐元素编程语法实现硬件层面Tile级的高性能并行操作极大的提升用户的算子编程体验。目前支持的双目运算符、支持的单目运算符、多运算场景、1D / 2D 场景、双目“向量 标量”场景、行切分场景、Buffer 标量广播运算、拷贝场景。代码使用方式示例运算操作# 一维运算场景 for i in T.Parallel(v_block): m_i[i] T.max(m_i[i], m_i_prev[i])# 二维运算场景 for (i, j) in T.Parallel(v_block, d): acc_o_ub[i, j] / T.exp(attn_sink_ub[i] - scores_max[i])拷贝操作# GM - UB 拷贝计算场景 for i, j in T.Parallel(block_M // VEC_NUM, block_N): C[bx * block_M vid * block_M // VEC_NUM i, by * block_N j] T.exp(a_ub[i, j])主要算子实现本章介绍DeepSeek-V4 0Day支持中Tilelang-Ascend实现的四个算子用例。Tilelang算子优势多个融合算子已经成功适配并接入DeepSeek模型Tilelang-Ascend在精细化Tile编程中具有语法简洁、先天适配NPU多级存储模型的优势开发者可以快速简洁地开发Tilelang算子结合上述Developer模式新特性在保持相近性能的前提下代码量可降低至原后端实现的约20%开发者能用简短的代码实现高性能的复杂算子。1、Sparse Flash Attention概述SparseFlashAttention算子的整体计算流程如下图所示SparseFlashAttention计算流程图在DeepSeek-V4模型中随着上下文长度不断变大面对超长序列注意力机制成为模型中的主要计算瓶颈。为了高效计算注意力SFASparse Flash Attention在保留原有稀疏索引筛选功能的基础上改进计算流程并接入了C4ACompress-4-Attention和C128ACompress-128-Attention稀疏注意力压缩架构显著降低了长文本场景中注意力的计算成本。新版的SFA算子还引入了可学习注意力锚点Attention sink机制通过调整每个查询头的注意力分数保护模型输出序列的稳定性。算法流程详解从NPU的块级执行视角结合具体维度阐述实现细节。输入输出张量以典型维度为例query: [b, m, h, d]查询向量集合。key/value: [b, n, d]键值向量集合。topk_idxs: [b, m, k]topk索引向量。attn_sink: [h]attn sink注意力锚点向量。output: [b, m, h, d]注意力权重输出向量。计算流程1、查询块加载**数据并行策略**将batch和m序列长度作为核间并行切分维度分核执行设置C:V核1:2比例以[head // 2, block64]为基础块大小细粒度核内切分张量并行执行。**数据切分细节**按照核间并行-核内切分的双重并行策略进行。以batch*m为逻辑核core_id数在AiCores上均匀分配任务。主块大小为dim512Shape - [32, 512]核内切分块大小为block64Shape - [32, 64]。2、稀疏键值索引构建掩码块索引驱动加载根据mask规则对基本块中每个数据的位置利用topk_idxs张量筛选计算得到key/value关联的idxs_ub索引张量for i in T.serial(block):idxs_ub[i] topk_idxs[by, bx, t * block i] if t * block i topk else -1构建掩码块根据idxs_ub索引张量筛选参与注意力计算的key值(kv_ub)并构建存储注意力分数计算结果的掩码矩阵(acc_s_ub)。3、注意力分数计算**矩阵乘**在Cube核上使用gemm_v0接口计算注意力分数矩阵乘结果累加存储到L0C buffer上计算逻辑为attn_tile query key.T Shape - [64, 64]**注意力掩码累加**将掩码矩阵累加到矩阵乘的注意力分数结果上得到掩码后的注意力分数值并与缩放scale相乘。4、Online Softmax在注意力分数结果上分块执行在线softmax。**数据并行**利用Tilelang框架新特性T.Parallel用逐元素计算代码表达Tile块级数据并行计算for (i, j) in T.parallel(v_block, block):​acc_s_ub[i, j] - scores_max[i]计算过程中通过规约动态维护最大值(score_max)和指数和(score_sum)中间统计量确保数值稳定性。5、上下文向量计算完成计算图中注意力权重与value的矩阵乘:attn_tile score value Shape - [64, 512]6、结果累加与重缩放**结果累加**以block64的基本Tile块进行循环累加计算结果到acc_o_ub buffer中。在线重缩放循环结束后利用在线Softmax维护的统计量(score_max, score_sum)通过向量化操作对累加结果进行全局重缩放校正分块计算引入的偏差。7、注意力锚点计算**attn sink注意力锚点**对累加结果进行attn sink锚点运算保留前s个token的注意力权重和KV缓存使输出保留全局上下文避免结果仅依赖近期token导致语义陷入局部陷阱或缺失:for (i, j) in T.Parallel(v_block, d):​acc_o_ub[i, j] / T.exp(attn_sink_ub[i] - scores_max[i])8、结果写回**结果保存**经过缩放与锚点处理的注意力权重结果按块写回全局内存中。2、Manifold-Constrained Hyper-Connections概述Manifold-Constrained Hyper-Connections算子的整体计算流程如下图所示Manifold-Constrained Hyper-Connections计算流程图Manifold-Constrained Hyper-ConnectionsMhc是一种通用残差架构优化方案融合了流形约束结构化映射技术Mhc算子主要包含三类可学习映射预变换映射pre、后变换映射post和跨流连接映射comb其将超连接HC的多路残差跨流映射约束在双随机矩阵流形上保留多流表达能力的同时恢复恒等映射特性解决大规模训练的数值不稳定与信号失控问题。算法流程详解算子输入输出典型维度张量分析mixes: [n, mix_hc]多流特征输入张量。hc_scale: [3]流级缩放系数向量。hc_base: [mix_hc]跨流映射初始矩阵向量。hc: 超参数流的数量。sinkhorn_iters: 超参数Sinkhorn-Knopp的迭代次数。eps: 超参数数值稳定epsilon。pre: [n, hc]mixes流级缩放预变换输出张量。post: [n, hc]残差融合特征流级缩放的后变换输出张量。comb: [n, hc]跨流连接映射输出张量。计算流程1、多流特征缩放**缩放值计算**首先根据流级缩放系数向量及流的数量构建每条流向量对应的缩放值hc_scale_shared。**计算缩放多流特征**按基本块大小将多流特征乘以缩放值后与跨流初始矩阵相加得到mixes_shared mixes_shared * hc_scale_shared hc_base_shared2、计算预变换张量预变换张量控制每条流的输入强度。根据多流特征缩放值通过Sigmoid缩放流级参数融合计算预变换张量结果按基本块Tile通过乘以scale值控制每条流的输入维度用 sigmoid 约束结果在稳定区间然后加eps防止出现零值计算流程如下pre mixes ⊙ sigmoid(scale) eps3、计算后变换张量后变换张量控制每条流的输出幅度。与预变换处理流程类似经过Sigmoid缩放流级参数融合后后处理张量会乘以2以适当扩大输出维度post (mixes ⊙ sigmoid(scale)) * 24、指数归一化按基本块读取跨流融合张量comb即上述经过缩放的多流特征张量准备计算跨流映射矩阵的双随机投影。通过reduce、sub、exp等运算接口对每个基本块实现softmax指数归一化运算逻辑同样累加eps避免产生零值实现特征输出的范围稳定comb comb.softmax(-1) eps5、行列归一化**行归一化**对经过指数归一化的comb基本块首先在行方向做整体归一化comb comb / (comb.sum(-2) eps)**迭代行列归一化**基于Sinkhorn-Knopp算法按基本块对comb执行总共sink_iter次行列归一化for i in range(sink_iter):​comb comb / (comb.sum(-1) eps)​comb comb / (comb.sum(-2) eps)最终得到归一化后的comb跨流连接映射输出张量。6、结果写回**结果保存**将跨流连接映射输出张量结果按块写回全局内存中。3、Int8 General Matrix Multiplication概述Int8 General Matrix Multiplication算子的整体计算流程如下图所示Int8 General Matrix Multiplication计算流程图Int8_gemmInt8 General Matrix Multiplication是带有量化激活输入值的MatMul算子将int8类型的输入值的矩阵乘结果反量化为fp32经过缩放因子缩放后再次量化到目标数据类型并保存输出结果。算法流程详解算子输入输出典型维度张量分析a_int8: [M, K]int8激活值向量。a_scales: [M, 1]激活值缩放因子。b_int8: [N, K]int8权重向量。b_scales: [N, 1]权重缩放因子。output: [M, N]量化gemm输出向量。计算流程1、int8矩阵乘法**矩阵乘**分块读入并使用gemm_v0接口计算矩阵乘结果输入值为int8类型存储中间结果为int32类型:C_tile A_tile B_tile.T Shape - [64, 64]**运算结果传递**利用GM workspace将运算结果写入c_ub buffer中。2、数据类型转换**int32-fp32转换**利用cast接口执行数据类型转换T.tile.cast(c_scale, c_ub) Type: int32 - float323、反量化缩放**加载缩放因子**将激活值和权重缩放因子按基本分块大小拷贝至ub buffer。**转换数据缩放**将转换后的数据与缩放因子相乘同样从Tile层级数据并行计算for (i, j) in T.Parallel(block_M_2, block_N):​c_scale[i, j] * scale_a_ub[i]​c_scale[i, j] * scale_b_ub[j]4、结果转换与写回类型转换再次通过cast将缩放结果转换为目标输出数据类型以fp16为例:T.tile.cast(c_out, c_scale) Type: float32- float16**结果保存**经过类型转换与反量化缩放的结果按块写回全局内存中。4、Activation Quantization概述Activation Quantization算子的整体计算流程如下图所示Activation Quantization计算流程图Act_quantActivation Quantization是处理激活量化的算子负责将模型前向推理时动态生成的激活值从高精度FP32/FP16转换为低精度INT8/INT4主要在模型反向传播或推理后完成量化。算法流程详解算子输入输出典型维度张量分析x_bf16: [M, N] / [batch, seq, N]待处理输入张量。round_scale: Falsebool值是否对缩放因子取整为2的幂次。计算流程1、最大值计算**数据预处理**首先把读入的数据转换为fp32类型然后求取其绝对值数据。**最大值**对列方向进行最大值规约得到输入数据每列的最大值并存储到max_ub buffer中。2、计算缩放因子使用每列计算出的最大值除以int8类型的最大值127根据round_scale判断是否取整为2的幂次然后得到每个元素的缩放因子for i in T.Parallel(block_M_2):​scale_ub[i] max_ub[i] / int8_abs_max3、int8对称量化**数据缩放**将第一步处理的数据除以缩放因子并通过clamp接口将数据限制在[-127, 127]范围内。**对称量化**将上述数据四舍五入取整然后先后量化为fp16和int8类型得到量化输出结果。整体计算流程可概括为y round(clamp(x / scale, -127, 127)).to(float16).to(int8)4、结果写回将结算得到的缩放因子向量scale_ub和量化激活值y_ub写回全局内存中。【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/cann-recipes-infer:NPU DeepSeek-V4 TileLang算子开发实践

NPU DeepSeek-V4 TileLang算子开发实践 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 简介 在大模型异构计算发展背景…...

CANN/pyasc ib_wait函数文档

asc.language.basic.ib_wait 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.basic.ib_wait(g…...

昇腾SiP CgemvOperation C++示例

信号处理加速库CgemvOperation C Demo 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 介绍 该目录下为信号处…...

智能电网安全:基于可信AI的攻击检测与风险解释框架

1. 项目概述在智能电网这个庞大的能源神经系统中,分布式能源资源(DERs)——比如你家屋顶的光伏板、街角的电动汽车充电桩、甚至是一个社区的储能电站——正以前所未有的速度和规模接入。它们通过源源不断的控制与状态消息,与电网控…...

CANN Runtime异常处理指南

异常处理 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 获取Runtime错误码 所有Runtime接口都会返回一个错误码。然而,对于异步接口(参见异步任务执行)&#xff0…...

KrkrzExtract终极指南:新一代krkrz引擎资源解包工具完全解析

KrkrzExtract终极指南:新一代krkrz引擎资源解包工具完全解析 【免费下载链接】KrkrzExtract The next generation of KrkrExtract 项目地址: https://gitcode.com/gh_mirrors/kr/KrkrzExtract KrkrzExtract是专门为krkrz引擎设计的下一代资源处理工具&#x…...

别再死记硬背TP/FP了!用Python手把手带你画混淆矩阵,5分钟搞懂准确率、召回率

用Python实战拆解分类模型评估:从混淆矩阵到指标可视化 刚接触机器学习的开发者常会遇到这样的困惑:为什么模型预测的"准确率"很高,但实际业务中却表现糟糕?上周我帮一个电商团队分析用户流失预测模型时就遇到这种情况—…...

多模态大模型如何重塑科学教育:从理论框架到课堂实践

1. 项目概述:当科学教育遇见“多模态”大脑最近几年,我身边不少从事科学教育(从K12到大学)的朋友和同事,都在不约而同地讨论一个词:多模态大语言模型。起初,大家只是把它当作一个更聪明的聊天机…...

视频动作识别可解释性:REVEX框架与六种移除式解释方法评测

1. 项目概述:当AI“看”视频时,我们如何理解它的“思考”?在动作识别领域,AI模型已经能够以惊人的准确率识别视频中的人类行为,从简单的“走路”、“跑步”到复杂的“打篮球”、“弹钢琴”。然而,一个长期困…...

2026年,如何挑选靠谱的冷镦油过滤机生产商?这几点是关键

在紧固件、轴承等金属零部件制造领域,冷镦工艺是核心环节,而冷镦油的清洁度直接关系到模具寿命、产品精度与生产成本。随着2026年工业制造向智能化、绿色化深度转型,选择一台高效、可靠的冷镦油过滤机,已成为企业降本增效与合规运…...

CANN/hcomm AIV算子任务编排

任务编排 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 编排步骤 参与集合通信的各个rank协调有序地进行同步与数据搬运&am…...

别再手动改NetCDF了!用CDO批量插值气象数据的保姆级Shell脚本(附双线性/最近邻/样条等7种方法对比)

别再手动改NetCDF了!用CDO批量插值气象数据的保姆级Shell脚本(附双线性/最近邻/样条等7种方法对比) 气象数据处理中,最让人头疼的莫过于面对不同来源、不同分辨率的NetCDF文件。想象一下,你手头有几百个温度、降水或风…...

深度解析KrkrzExtract:下一代krkrz引擎资源处理工具实战指南

深度解析KrkrzExtract:下一代krkrz引擎资源处理工具实战指南 【免费下载链接】KrkrzExtract The next generation of KrkrExtract 项目地址: https://gitcode.com/gh_mirrors/kr/KrkrzExtract KrkrzExtract作为新一代krkrz引擎资源处理工具,专为游…...

CANN/ops-nn GeluMul算子

GeluMul 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√At…...

APA 7th Edition终极指南:三分钟解决Word参考文献格式混乱问题

APA 7th Edition终极指南:三分钟解决Word参考文献格式混乱问题 【免费下载链接】APA-7th-Edition Microsoft Word XSD for generating APA 7th edition references 项目地址: https://gitcode.com/gh_mirrors/ap/APA-7th-Edition 还在为学术论文的参考文献格…...

中国企业全球化人才战略白皮书

导读:当前中国企业全球化已进入深水区,告别 “拼速度、抢扩张” 的粗放阶段,转向以长期价值、组织韧性、全球共生为核心的新征程。效率、成本与技术速度不再是决胜关键,信任力成为企业立足全球、穿越周期的核心 “软货币”&#x…...

CANN/HCOMM对称内存注册接口

HcclCommSymWinRegister 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT&#xff1…...

百度网盘提取码智能解析:3分钟告别手动搜索的终极指南

百度网盘提取码智能解析:3分钟告别手动搜索的终极指南 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘提取码而烦恼吗?每次遇到加密分享链接,都要像侦探一样在网页间来回搜索…...

Docker Registry Push 超时排查全记录:从网络栈到残留 veth 的真相

摘要: 在私有化部署 Docker Registry 时,遇到宿主机 curl 容器映射端口超时的诡异问题。经历 iptables、rp_filter、bindv6only、抓包等深入排查后,最终发现是 Docker 卸载残留的 veth 接口扰乱了内核包转发路径。本文完整记录排错过程与根因…...

从停机问题到AI责任:技术不可判定性与法律归责的跨界思考

1. 项目概述:一个横跨技术与法律的硬核议题最近和几位做算法开发的朋友聊天,大家不约而同地提到了一个共同的困惑:我们写的代码、训练的模型,一旦“闯了祸”,责任到底算谁的?是写代码的工程师,是…...

CANN/ops-transformer FFA算子设计

1 计算过程 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 按照FusedFloydAttention正向计算流程实现,整体计算流程如下&#x…...

CANNBot技能:模型推理预取优化

【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills name: model-infer-prefetch description: 基于 PyTorch 框架的昇腾 N…...

组态屏工程备份 / 恢复 / 加密 / 密码忘记

在工业自动化现场,组态屏作为人机交互的核心设备,承载着设备监控、参数设置、报警记录等关键功能。而组态工程文件,则是这块屏幕的“灵魂”——一旦工程丢失或损坏,重新编写不仅耗时数日,甚至可能因工艺参数遗忘而导致…...

可解释AI如何破解人机协同决策的信任难题?

1. 项目概述:当AI开始解释自己最近几年,我参与和观察了不少将人工智能(AI)引入关键决策流程的项目,从医疗诊断辅助到金融风控,再到工业运维。一个越来越强烈的感受是:当AI的预测或建议摆在我们面…...

CANN π₀.₅模型训练优化说明

π₀.₅ 模型训练昇腾迁移与性能优化说明 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence 背景介…...

LobeHub 这玩意儿,到底香在哪?

先说结论:LobeHub 是目前我在前端圈里看到的,最接近“智能体操作系统”的一个东西。不是吹,是真的好用到让我有点慌。事情是这样的前阵子我在搞一个自动化工单系统,本来打算自己撸一套 Agent 调度逻辑,结果写到第三天我…...

AI+SPU-Net:机器人辅助脊柱手术的自动切面规划技术详解

1. 项目概述与核心价值在骨科脊柱外科领域,椎板切除术是一项常规且至关重要的减压手术,用于治疗椎管狭窄、椎间盘突出等疾病。手术的核心在于精准、安全地切除椎板骨质,为受压的神经结构“松绑”。然而,传统手术高度依赖主刀医生的…...

CANN/ops-fft:FFT算子库

ops-fft 【免费下载链接】ops-fft ops-fft 是 CANN (Compute Architecture for Neural Networks)算子库中提供 FFT 类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。 项目地址: https://gitcode.com/cann/ops-fft…...

CANN一维最近邻上采样算子

aclnnUpsampleNearest1dV2 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950…...

Figma中文界面终极指南:3分钟让英文设计工具秒变中文

Figma中文界面终极指南:3分钟让英文设计工具秒变中文 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而苦恼吗?FigmaCN是一款专为中文用户…...