【GCU体验】基于PaddlePaddle + GCU跑通模型并测试GCU性能
一、环境
地址:启智社区:https://openi.pcl.ac.cn/
二、计算卡介绍

云燧T20是基于邃思2.0芯片打造的面向数据中心的第二代人工智能训练加速卡,具有模型覆盖面广、性能强、软件生态开放等特点,可支持多种人工智能训练场景。同时具备灵活的可扩展性,提供业界领先的人工智能算力集群方案。
优势特点
- 澎湃算力 高精训练
- 专属通道 算力扩展
- 广泛支持 生态友好
- 工具开放 高效开发
三、代码仓
https://openi.pcl.ac.cn/Enflame/GCU_PaddlePaddle_Example
四、模型+数据集
Resnet+imagenet_raw
五、运行结果
单卡单Epoch
"model": "ResNet50","local_rank": 0,"batch_size": 64,"epochs": 1,"best_acc1": 0.05368589743589743,"device": "gcu","skip_steps": 5,"early_stop_steps": -1,"train_fps_mean": 181.94580085847983,"train_fps_min": 171.20650785663634,"train_fps_max": 185.50593755138325,"training_time": "0:12:37"
fps_mean:181.95
最佳acc:0.05368589743589743
8卡单epochs
"model": "ResNet50","local_rank": 0,"batch_size": 64,"epochs": 1,"best_acc1": 0.03766025641025641,"device": "gcu","skip_steps": 10,"early_stop_steps": -1,"train_fps_mean": 132.09731651456303,"train_fps_min": 124.26364291218985,"train_fps_max": 154.88106976141714,"training_time": "0:08:09"
fps_mean:132.09731651456303,
最佳acc:00.03766025641025641
线性度:72.6%
8卡50epochs
"model": "ResNet50","local_rank": 0,"batch_size": 64,"epochs": 50,"best_acc1": 0.7596153846153846,"device": "gcu","skip_steps": 10,"early_stop_steps": -1,"train_fps_mean": 136.83746977332163,"train_fps_min": 57.52560204784666,"train_fps_max": 184.07473928475426,"training_time": "1:02:08"
fps_mean:136.83746977332163
最佳acc:0.7596153846153846
六、心得建议
心得
通过运行可以发现单Epoch或者Epochs数量不多的情况下多卡其实优势并不明显,只有数据集较大以及Epochs较多的情况下多卡才能体现出他的优势
飞桨在GCU下运行resnet+imagenet_raw总体感觉速度没有torch在GCU下面运行的快
同样的batch_size(64)飞桨在GCU下运行需要1小时02分,但是pytorch 100个epoch也只用了1小时18分22秒,可能飞桨在GCU下还可以继续优化
建议
- 能够多一些关于飞桨如何使用GCU进行训练推理的教程或者建一个modelzoo之类的代码仓,可以找一些开发者一起维护
- 使用GCU总体感觉速度还是蛮快的,后期准备有时间做一下和CPU以及GPU平台的速度精度对比看看。
- GCU平台有没有可能在未来支持更多的框架,例如tensorflow,mindspore等等
- 现在的脚本训练没有过程输出,可以通过修改py文件添加log输出,但是个人建议如果能有个教程指导初学者如何去添加log输出的代码示例会更好,初学者不一定知道如何去修改
相关文章:
【GCU体验】基于PaddlePaddle + GCU跑通模型并测试GCU性能
一、环境 地址:启智社区:https://openi.pcl.ac.cn/ 二、计算卡介绍 云燧T20是基于邃思2.0芯片打造的面向数据中心的第二代人工智能训练加速卡,具有模型覆盖面广、性能强、软件生态开放等特点,可支持多种人工智能训练场景。同时具备灵活的可…...
解析hash(散列)数据结构
前言 在学习完map、set这两个由红黑树构成的容器后,我们来到了这里hash,首先我们要有一个基础的认知——哈希和map与set的仅在使用时的差别区别:前者内部的元素没有序,而后者有序,其它的都相同,这里我们可…...
《2023金融科技·校园招聘白皮书》新鲜出炉|牛客独家
数智创新时代,科技人才为先。 眼下,在建设“数字中国”的时代背景下,金融行业全面数智化转型已箭在弦上。政策端,金融行业为中共中央、国务院印发《数字中国建设整体布局规划》的7大重点行业之一。 资本端,仅2022年三…...
文明的标志:书写系统、修建城市、使用金属器
文章目录 引言I 预备知识1.1 文明”和“文化”概念1.2 文明的标志1.3 应对水患II 定居开启了人类文明2.1 书写系统2.2 陶器2.3 家畜引言 一切和开启文明相关的技术都是围绕着两根主线展开: 多获取能量,以便于生存,信息能够管理起酋邦,总结、记录并传授经验。I 预备知识 1.…...
算法:将一个数组旋转k步
题目 输入一个数组如 [1,2,3,4,5,6,7],输出旋转 k 步后的数组。 旋转 1 步:就是把尾部的 7 放在数组头部前面,也就是 [7,1,2,3,4,5,6]旋转 2 步:就是把尾部的 6 放在数组头部前面,也就是 [6,7,1,2,3,4,5]… 思路 思…...
使用大华惠智双目半球网络摄像机DH-IPC-HD4140X-E2获取人流量统计数据
记录一下使用Java的SpringBoot大华SDK在智慧公厕项目中使大华惠智双目半球网络摄像机DH-IPC-HD4140X-E2获取人流量统计数据 首先根据说明书登录摄像头,一般摄像头都有自己的账号和密码(可能是admin admin 也可能是admin 888888 还有可能是admin 12345),…...
DC插装式流量阀压力阀
Cartridge Valves 电磁阀 止回阀 运动控制阀 流量控制阀 溢流阀 压力控制阀 顺序阀 梭阀 方向阀 配件 Zero Profile Valves 止回阀 运动控制阀 流量控制阀 溢流阀 梭阀 In-Line Valves 止回阀和梭阀 方向阀 配件 微型系列 AB20S APIDC-30S C10B C10S C10S…...
NumPy 数组学习手册:6~7
原文:Learning NumPy Array 协议:CC BY-NC-SA 4.0 译者:飞龙 六、性能分析,调试和测试 分析,调试和测试是开发过程的组成部分。 您可能熟悉单元测试的概念。 单元测试是程序员编写的用于测试其代码的自动测试。 例如&…...
【笔试强训选择题】Day6.习题(错题)解析
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、Day6习题(错题)解析 二、Day6习题(原题)练习 总结 前言 一、Day6习题(错题)解析…...
磁盘分区-LINUX
1、主分区(primary) 磁盘在Linux当中的命名: IDE /dev/hda hdb SCSI sda sdb 分区数字表示:sda1 、sda2、sda3 磁盘分区相当于给磁盘打隔断 ① 系统中必须要存在的分区,系统盘选择主分区安装 ② 数字编号只能是1-4&am…...
SpringAOP入门基础银行转账实例(进阶版)------------事务处理
SpringAOP入门基础银行转账实例**(进阶版)**------------事务处理 由上一节讲述的通过Connection和QueryRunner对事务进行的处理(详情可以去我之前写的博客文章:https://blog.csdn.net/m0_56245143/article/details/130069160?spm1001.2014…...
【python学习】基础篇-常用函数-format函数 格式化操作
format()可以对数据进行格式化处理操作,语法如下: format(value,format_spec) value 为要转换的数据,fommat spec 为格式化解释, 当参数 format spec 为空时,等同于函数 str(value)的方式。 format spec 可以设置非常复…...
团团面试经验
1、Redis同时访问大量不存在的key会发生什么? 如果是缓存和数据库中都不存在,那么就会发生缓存穿透。 举个例子:某个黑客故意制造一些非法的 key 发起大量请求,导致大量请求落到数据库,结果数据库上也没有查到对应的数…...
今天面了个京东拿 38K 出来的,让我见识到了基础的天花板
今年的春招已经开始了,很多小伙伴收获不错,拿到了心仪的 offer。 各大论坛和社区里也看见不少小伙伴慷慨地分享了常见的软件测试面试题和八股文,为此咱这里也统一做一次大整理和大归类,这也算是划重点了。 俗话说得好࿰…...
Qt创建SDK库(dll动态库)并调用SDK库(dll动态库)
Qt创建SDK库(dll动态库)并调用SDK库(dll动态库) 一、项目场景 在日常的项目中,我们经常会遇到调用别人的数学库、线程库、图形库等操作。这些库通常就被称为SDK,SDK全称是Software Development Kit(软件开发工具包),…...
400以内的蓝牙耳机哪款好?400以内蓝牙耳机排行榜
谈起TWS,无论是传统的音频厂商还是手机厂商,都是其不可或缺的重要产品线,现在很多许多蓝牙耳机都不是千篇一律得形状,市场也鲜有商家在外观上下功夫,下面分享几款400元以内,内外兼具的耳机品牌。 一、南卡…...
基于飞桨实现的特定领域知识图谱融合方案:ERNIE-Gram文本匹配算法
文本匹配任务在自然语言处理领域中是非常重要的基础任务,一般用于研究两段文本之间的关系。文本匹配任务存在很多应用场景,如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等&…...
前端基础复习
1.什么叫HTML5?和原本的所说的HTML有什么区别? 本质上html和html5是一样的的。区别有: 1. 在文档类型声明上 HTML4.0 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loos…...
Vue2 API-源码解析
目录 Vue.extend(option) delimiters functional Vue.component(id, Function | Object) Vue.directive( id, [definition] ) Vue.filter( id, function) Vue.nextTick() Vue.set() Vue.delete(target, index/key) Vue.compile(template) Vue.observable(object) …...
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization
FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 论文地址:https://arxiv.org/pdf/2303.14189.pdf 概述 本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型 移动设备和 ImageNet 数据集上的精度相同的前提下…...
诺丽果汁终极选购指南——五大品牌全维度对比
我们聊过挑选诺丽果汁需要“看出身、看真材、看底牌”三大原则。今天,我们把这套标准真正落到实处,对市场上最具代表性的五个品牌——艾多美、美商大溪地、可可椰、美乐家、合百诺丽进行全维度对比,帮你看清每家的真实水平。快速结论放在最前…...
手把手教你用STM32实现国标交流充电桩的CP信号检测(附完整代码)
手把手教你用STM32实现国标交流充电桩的CP信号检测(附完整代码) 在电动汽车充电基础设施快速发展的今天,交流充电桩因其成本优势和广泛适用性成为市场主流。作为嵌入式开发者,理解并实现充电控制导引(CP)信…...
Perplexity + Obsidian + LlamaIndex三端联动:打造个人知识库响应延迟<800ms的私有化查询方案
更多请点击: https://intelliparadigm.com 第一章:Perplexity技术文档查询 Perplexity 是一种衡量语言模型预测能力的指标,常用于评估模型对给定文本序列的不确定性程度。在技术文档查询场景中,它被用作排序与重排的关键信号——…...
别再混淆了!用PyTorch代码带你彻底搞懂PointNet里的Shared MLP和普通MLP
用PyTorch代码解密PointNet中的Shared MLP与普通MLP本质差异 第一次阅读PointNet论文时,看到"Shared MLP"这个术语总让人困惑——它和普通MLP到底有什么区别?为什么点云处理非要强调"共享"这个概念?本文将通过PyTorch代码…...
如何高效掌握LAMMPS:分子动力学模拟的完整实战指南
如何高效掌握LAMMPS:分子动力学模拟的完整实战指南 【免费下载链接】lammps Public development project of the LAMMPS MD software package 项目地址: https://gitcode.com/gh_mirrors/la/lammps 想要快速掌握强大的分子动力学模拟工具吗?LAMM…...
终极免费二维码修复方案:QRazyBox专业工具完全指南
终极免费二维码修复方案:QRazyBox专业工具完全指南 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 还在为损坏的二维码无法扫描而烦恼吗?QRazyBox这款强大的QR二维码修…...
统一去马赛克与降噪技术:ESUM模型解析与应用
1. 项目概述:统一去马赛克与降噪技术研究 在数字图像处理领域,去马赛克(Demosaicing)是图像信号处理(ISP)流水线中最关键的步骤之一。这项技术负责将传感器捕获的原始拜耳模式(Bayer Pattern&am…...
基于GAN的AI图像水印移除工具VeoWatermarkRemover实战指南
1. 项目概述:一个开源图像水印移除工具 最近在整理一些老照片和网上下载的素材时,经常被图片上那些碍眼的水印、Logo或者时间戳困扰。手动用PS处理,费时费力,而且对批量操作极不友好。直到我发现了GitHub上一个名为“VeoWatermar…...
HEC-RAS 5.0.7实战:从模型结果到ArcGIS,一步步教你生成并导出淹没范围SHP文件
HEC-RAS 5.0.7与ArcGIS联合作战:专业级淹没分析全流程指南 水利工程师在完成HEC-RAS模型计算后,常面临一个关键挑战:如何将模拟结果转化为实际项目所需的GIS数据?本文将以HEC-RAS 5.0.7为例,详细拆解从模型结果到ArcGI…...
STM32定时器中断配置详解:从时钟树到回调函数,一次搞懂ARR和PSC怎么算
STM32定时器中断配置详解:从时钟树到回调函数,一次搞懂ARR和PSC怎么算 在嵌入式开发中,定时器是最基础也最强大的外设之一。很多开发者虽然能够通过复制代码让定时器工作,但对于如何精确控制定时周期、理解时钟信号的传递路径以及…...
