当前位置: 首页 > article >正文

CANN/ops-tensor API 实现状态

ops-tensor API 实现状态【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor版本信息当前版本: v1.0.0更新日期: 2026-03-20开发阶段: Phase 1 - Elementwise Binary (Add)✅ 已实现接口 (Phase 1)1. 句柄管理acltensorCreate- 创建库句柄acltensorDestroy- 销毁库句柄2. 张量描述符acltensorCreateTensorDescriptor- 创建张量描述符acltensorDestroyTensorDescriptor- 销毁张量描述符3. 操作描述符acltensorCreateElementwiseBinary- 创建二元元素操作描述符acltensorDestroyOperationDescriptor- 销毁操作描述符4. Plan 管理acltensorCreatePlanPreference- 创建 Plan 偏好acltensorDestroyPlanPreference- 销毁 Plan 偏好acltensorCreatePlan- 创建执行 PlanacltensorDestroyPlan- 销毁 Plan5. 执行函数acltensorElementwiseBinaryExecute- 执行二元元素操作6. 辅助工具acltensorGetErrorString- 获取错误字符串acltensorGetVersion- 获取库版本号7. 已实现算子Add(张量加法) -src/add/8. 支持范围数据类型: FP32 (ACLTENSOR_R_32F)一元操作符: IDENTITY (ACLTENSOR_OP_IDENTITY)二元操作符: ADD (ACLTENSOR_OP_ADD)算法: DEFAULT (ACLTENSOR_ALGO_DEFAULT)⏸️ 待实现接口Phase 2 - Elementwise 扩展必须实现acltensorCreateElementwiseTrinary- 三元元素操作描述符acltensorElementwiseTrinaryExecute- 执行三元元素操作重要功能acltensorEstimateWorkspaceSize- 估算工作空间大小acltensorOperationDescriptorSetAttribute- 设置操作描述符属性acltensorOperationDescriptorGetAttribute- 获取操作描述符属性可选功能acltensorHandleResizePlanCache- 调整 Plan 缓存acltensorHandleWritePlanCacheToFile- 写入缓存到文件acltensorHandleReadPlanCacheFromFile- 从文件读取缓存acltensorPlanPreferenceSetAttribute- 设置 Plan 偏好属性acltensorPlanGetAttribute- 获取 Plan 属性Phase 3 - Contraction Reduction必须实现acltensorCreateContraction- 创建张量收缩描述符acltensorContract- 执行张量收缩 (D αA·B βC)acltensorCreateReduction- 创建张量归约描述符acltensorReduce- 执行张量归约Phase 4 - Permutation可选功能acltensorCreatePermutation- 创建张量排列描述符acltensorPermute- 执行张量排列/转置⏸️ 待实现操作符一元操作符 (21个)必须实现SQRT, RELU, SIGMOID, TANH, EXP, LOG, ABS, GELU, SILU重要功能CONJ, RCP, NEG可选功能SIN, COS, TAN, SINH, COSH, ASIN, ACOS, ATAN, CEIL, FLOOR二元操作符 (6个)必须实现MUL, MAX, MIN重要功能SUB, DIV可选功能POW⏸️ 待支持数据类型必须实现FP16 (ACLTENSOR_R_16F)BF16 (ACLTENSOR_R_16BF)重要功能FP64 (ACLTENSOR_R_64F)可选功能INT8, UINT8, INT32, UINT32Complex FP32 (ACLTENSOR_C_32F)Complex FP64 (ACLTENSOR_C_64F) 实现进度统计类别已实现待实现总计API 接口151934操作符22628数据类型1910算子1--总体完成度: Phase 1 (Elementwise Binary - Add) ✅ 开发路线图Phase 1: Elementwise Binary - Add ✅ (已完成)基础架构搭建句柄管理张量描述符FP32Add 算子实现Add 算子测试打包流程Phase 2: Elementwise 扩展 (下一步)多数据类型支持 (FP16/BF16/FP64)更多一元操作符SQRT, RELU, SIGMOID, TANH, EXP, LOG, ABS, GELU, SILU更多二元操作符MUL, MAX, MINElementwise TrinaryPlan 缓存机制工作空间估算属性查询接口Phase 3: Contraction ReductionContraction 接口与实现Reduction 接口与实现复数数据类型支持性能优化Phase 4: Permutation 高级特性Permutation 接口与实现JIT 编译支持Auto-tune 机制多 GPU 支持 当前限制数据类型: 仅支持 FP32操作符: 仅支持 IDENTITY 和 ADD操作类型: 仅支持 Elementwise Binary算子: 仅实现 Add 算子不支持: workspace 复用、Plan 缓存、属性查询 设计参考API 设计: 参考 hiptensor/cuTensor算子注册机制: 参考 rocFFT测试框架: 自研轻量级测试框架文档维护: 请在实现新接口时及时更新本文档【免费下载链接】ops-tensorops-tensor 是 CANN Compute Architecture for Neural Networks算子库中提供张量类计算的基础算子库采用模块化设计支持灵活的算子开发和管理。项目地址: https://gitcode.com/cann/ops-tensor创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/ops-tensor API 实现状态

ops-tensor API 实现状态 【免费下载链接】ops-tensor ops-tensor 是 CANN (Compute Architecture for Neural Networks)算子库中提供张量类计算的基础算子库,采用模块化设计,支持灵活的算子开发和管理。 项目地址: https://git…...

Supabase database-build:声明式PostgreSQL架构管理的工程实践

1. 项目概述:一个数据库构建的“乐高工厂”如果你在Supabase社区里混过一段时间,大概率会听说过或者用过supabase-community/database-build这个仓库。乍一看名字,它可能被误解为某个数据库的构建脚本或者一个独立的工具。但当你真正深入进去…...

Figma文件语义化重构:提升AI协作与前端开发效率

1. 项目概述:为Figma文件注入“语义灵魂”如果你是一名前端开发者,或者经常需要与设计师协作,你一定遇到过这样的场景:设计师丢过来一个Figma文件,你满怀期待地打开,准备从中提取设计规范、组件结构&#x…...

AI智能体如何通过MCP协议直接操作浏览器?DrissionPage-MCP-Server实践指南

1. 项目概述:当浏览器自动化遇上AI智能体 最近在折腾AI智能体(Agent)和自动化工具链的整合,发现一个挺有意思的痛点:很多AI助手,比如Claude、Cursor的AI编程伙伴,它们能理解你的指令&#xff0…...

多智能体系统核心架构解析:从AutoGen到Shogun的“将军”模型实践

1. 项目概述:当“将军”指挥多个AI智能体最近在开源社区里,一个名为yohey-w/multi-agent-shogun的项目引起了我的注意。光看名字,“multi-agent”和“shogun”(将军)这两个词就足够让人浮想联翩。这显然不是一个简单的…...

GPU能耗建模技术:从指令级优化到跨架构统一

1. GPU能耗建模的技术演进与核心挑战 在现代高性能计算(HPC)和机器学习领域,GPU已成为算力核心,但随之而来的能耗问题日益突出。以美国能源部的Frontier超级计算机为例,其搭载的64000块GPU在满负荷运行时功耗可达30兆瓦…...

如何为 Linux 之父,打造一台让他满意的最强主机?

今天在B站刷到了一个堪称 “世纪同框” 的视频,我关注的 LTT 频道,请来了 Linux 和 Git 之父——Linus Torvalds 本尊! 这绝对是每个技术宅的梦想时刻:当科技圈最能“整活”的 Linus,遇上最硬核的 Linus,他…...

智慧工地工作人员建筑工人工作状态检测数据集VOC+YOLO格式7375张3类别

注意数据集中有部分增强,大约5000张是原图剩余为旋转增强图片数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):7375标注数量(xml文…...

基于MCP协议构建AI邮件助手:lettr-mcp架构设计与实现详解

1. 项目概述:一个连接AI与外部世界的“翻译官”最近在折腾AI应用开发的朋友,估计都绕不开一个词:MCP(Model Context Protocol)。简单来说,它就像给大语言模型(比如ChatGPT、Claude)装…...

开源情绪感知交互空间:从传感器到氛围生成的软硬件实现

1. 项目概述:一个开源的情绪感知与交互空间最近在GitHub上看到一个挺有意思的项目,叫“open-vibe-island”。光看名字,你可能会有点摸不着头脑,这“开放氛围岛”到底是个啥?简单来说,这是一个开源的情绪感知…...

Resonix-AG:实时音频动态处理库的架构、算法与工程实践

1. 项目概述:一个音频处理领域的“瑞士军刀”最近在音频处理社区里,一个名为Resonix-AG的项目引起了我的注意。这个由mangiapanejohn-dev维护的仓库,名字听起来就很有技术感——“Resonix”很容易让人联想到“共振”(Resonance&am…...

艾尔登法环帧率解锁与视觉增强终极指南

艾尔登法环帧率解锁与视觉增强终极指南 【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingFpsUnlockAndMore …...

用Rust构建跨平台光标主题引擎:提升终端开发体验的个性化利器

1. 项目概述:一个为开发者打造的轻量级光标主题引擎在终端和代码编辑器的世界里,我们每天有数小时与闪烁的光标为伴。这个看似不起眼的小竖线或方块,却是我们与机器交互最直接的视觉焦点。然而,大多数开发者默认使用的都是系统或编…...

writ工具:提升AI编程指令质量与智能体协作的工程实践

1. 项目概述:为AI编码智能体构建质量与沟通层如果你和我一样,每天都在和Cursor、Claude Code这类AI编码助手打交道,那你肯定遇到过这样的场景:你精心写了一大段指令,告诉AI“重构这个函数,让它更高效”&…...

多智能体开发环境配置管理:模块化、隔离化与一键化实践

1. 项目概述:一个为多智能体协作环境量身定制的配置管理方案如果你和我一样,日常开发工作流中已经离不开各类AI助手,从代码补全、文档生成到复杂任务的自动化分解,那么你很可能已经体验过同时与多个AI智能体“协同作战”的场景。无…...

期刊名称智能缩写工具Journal Abbrev:解放科研文献管理自动化

1. 项目概述与核心价值 如果你是一名科研工作者、学术编辑,或者经常需要处理参考文献,那么“期刊名称缩写”这件事,绝对是你学术生涯中一个不大不小、但又极其磨人的痛点。想象一下,你正在撰写一篇论文,需要引用几十篇…...

实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 实测 Taotoken 在不同时段的 API 响应延迟与稳定性观感 在将大模型能力集成到应用中的过程中,API 的响应延迟与稳定性是…...

统一通信协作平台UCCL:架构解析与自托管部署实践

1. 项目概述:一个面向未来的统一通信与协作平台最近几年,远程办公和混合工作模式已经成为常态,随之而来的是团队协作工具的“爆炸式增长”。我们每天可能要在五六个不同的应用之间切换:用A软件开会,用B软件传文件&…...

2026届毕业生推荐的十大AI论文助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能写作工具是依据深度学习算法构建而成的,其具备飞快生成出结构完整且语言…...

2026届学术党必备的五大降AI率神器解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek系列论文展现出大规模语言模型的技术突破,其创新架构运用混合专家模型跟…...

2026届最火的五大降AI率神器实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 倘若人工智能技术得以广泛普及,那么便会有越来越多的毕业生尝试借助AI工具来辅助…...

2025最权威的五大AI辅助论文工具解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 存在着一种基于人工智能技术的自动化写作工具,你知道是什么吗,它就是…...

PyTorch 混合精度训练:FP16 与 BF16 性能对比

PyTorch 混合精度训练:FP16 与 BF16 性能对比 1. 技术分析 1.1 浮点精度对比 精度位数范围精度内存占用FP32321.2e-38 ~ 3.4e387位有效数字4字节FP16166.1e-5 ~ 6.5e43位有效数字2字节BF16161.1e-38 ~ 3.4e383位有效数字2字节 1.2 混合精度训练原理 混合精度训练流程…...

AI意识评估:从理论到工程实践的科学探索

1. 项目概述:当AI开始“思考”,我们如何评估?“AI意识评估”这个标题,听起来像科幻小说里的概念,但事实上,它正迅速从一个哲学思辨议题,演变为一个迫在眉睫的工程与伦理挑战。作为一名长期关注前…...

医疗生成式AI的伦理挑战与GREAT PLEA治理框架实践指南

1. 项目概述:当AI开始“思考”医疗最近几年,生成式AI在医疗领域的应用,已经从实验室的“概念验证”阶段,快速渗透到临床辅助诊断、药物研发、患者教育乃至医院运营管理的方方面面。作为一名长期关注医疗科技交叉领域的从业者&…...

从信托义务到AI对齐:构建可信人工智能的技术与治理框架

1. 项目概述:当法律遇上代码最近和几位做AI产品落地的朋友聊天,大家不约而同地提到了同一个词:“对齐”。但聊着聊着,话题就从技术上的“奖励模型”和“人类反馈强化学习”,滑向了更让人头疼的领域——合规、责任和信任…...

基于Claude API的智能代码生成工具设计与实现

1. 项目概述:一个被“设计失败”命名的代码生成工具在开发者社区里,项目名称往往承载着创始人的某种情绪或愿景。当你第一次看到designfailure/claudecode这个仓库名时,可能会感到一丝困惑甚至好奇。designfailure(设计失败&#…...

自主智能体架构解析:从ReAct框架到实战应用开发指南

1. 项目概述与核心价值最近在GitHub上看到一个名为“Autonomous-Agents”的项目,作者是tmgthb。这个标题本身就充满了吸引力,它指向了当前人工智能领域一个极其热门且富有想象力的方向——自主智能体。简单来说,这个项目探讨和实现的&#xf…...

RAG-Fusion:用多查询与RRF融合提升复杂意图检索效果

1. 项目概述:RAG-Fusion,一次对搜索本质的深度探索如果你和我一样,在过去几年里一直在折腾RAG(检索增强生成)相关的项目,那你肯定经历过这种时刻:精心构建的向量数据库,配上强大的大…...

基于AI的GitHub仓库自动化管理:GHPT项目实战解析

1. 项目概述:当GitHub遇上AI,一个开源项目的新玩法最近在GitHub上闲逛,发现了一个挺有意思的项目,叫“GHPT”。光看名字,你可能会联想到GPT,没错,它确实和AI有关。但它的全称和定位,…...