数字IC实践项目(7)—CNN加速器的设计和实现(付费项目)
数字IC实践项目(7)—基于Verilog的CNN加速器(付费项目)
- 写在前面的话
- 项目整体框图
- 神经网络框图
- 完整电路框图
- 项目简介和学习目的
- 软件环境要求
- 资源占用&板载功耗
- 总结
写在前面的话
项目介绍:
卷积神经网络硬件加速器是一种专门设计用于提高神经网络计算性能的硬件设备。它通过在硬件级别上对神经网络模型的计算任务进行优化,以实现更快、更高效的计算,并显著减少能耗和计算成本。硬件加速器通常包括专用的处理单元、存储器和并行计算架构等组件,可以在较短的时间内处理大规模的神经网络计算任务。整个项目是基于先前相关的研究工作展开的,整体包含涵盖了算法设计、Verilog代码设计、仿真验证以及通过FPGA完成了最终验证。
重要性:
- 神经网络模型的复杂度不断增加,需要庞大的计算资源来训练和推断。传统的通用计算硬件无法满足这种需求,而神经网络硬件加速器则能够充分利用并行计算和专门优化的算法,提供高效的计算能力,加速神经网络模型的训练和推断过程。
- 其次,神经网络硬件加速器可以显著降低能耗和计算成本。由于神经网络模型的计算量很大,传统的计算设备在进行神经网络计算时会消耗大量的能源,导致高昂的运行成本。而神经网络硬件加速器通过专门的架构设计和算法优化,能够以更高的能效执行计算任务,降低功耗和运行成本,对于大规模的神经网络应用具有重要的经济意义。
对于找工作的帮助:
- 随着人工智能技术的广泛应用,越来越多的企业和研究机构对拥有神经网络硬件加速器相关知识和经验的人才需求增加。掌握神经网络硬件加速器的原理和应用,能够帮助个人在就业市场上脱颖而出。
- 此外,神经网络硬件加速器在云计算和边缘计算等领域得到广泛应用,特别是在处理大规模数据和实时决策的场景下。因此,拥有神经网络硬件加速器的相关背景和实践经验,将为求职者在云计算和智能设备等领域的工作机会带来更多选择。对于找工作而言,拥有神经网络硬件加速器相关知识和经验,不仅可以增加个人竞争力,还能为求职者提供更广阔的职业发展机会。
项目整体框图
项目整体框图如下,以CNN硬件加速器为核心,输入数据可为传感器阵列数据或者摄像头采集的图片信息,采用MNIST作为训练和测试数据。整个网络包含两层卷积、两层最大池化以及一层全连接层,经过CNN加速器后的识别结果回同步输出到显示器上。
神经网络框图
整体采用的神经网络架构如下:共包含两层卷积和两层最大池化以及最后一层全连接层。
1)代码使用Pytorch架构完成
2)数据集为MNIST,大小为2828
3)采用三个55大小的卷积核
4)采用最大池化和Relu激活函数
完整电路框图
整个电路结构如下,主要分为五个部分,分别为:
1、CLK _Unit:时钟管理模块,将200MHz的差分时钟分频为148.5MHz、100MHz、50MHz以及20MHz,其中50MHz的时钟作为系统主时钟,CNN计算核心同步时钟。
2、Data_IN&Buffer:数据输入和缓冲模块,将阵列数据和图像数据通过串口传输并缓存在RAM里,为CNN计算进行缓冲。
3、CNN_Core:卷积计算核心,包含神经网络的所有硬件化加速器电路。
4、Hdmi_Display:Hdmi视频传输芯片控制模块,将卷积神经网络的识别结果和采集的图像进行输出显示。
5、For_Debug:用于外部调试,包含串口发送,将是实时的识别结果输出至上位机和其余外设,协助完成调试工作。
项目难度:⭐⭐⭐⭐⭐
项目推荐度:⭐⭐⭐⭐
项目推荐天数:21~35天
项目简介和学习目的
使用Pytorch完成卷积神经网络的搭建,并移植到Verilog平台完成电路设计、综合以及最终的下板测试环节。整个项目耗时长达半年之久,其中遇见不是Bug,也是花费不少精力进行解决的,感兴趣的同学可以私信我,整个项目还有很多可以优化改进的地方,大家可以在完成学习的基础上进行改进,希望可以帮助大家更好的完成求职!
软件环境要求
整个项目对于初学者要求较高,完成复现需要花费较长的时间搭建软件环境,这里建议大家按需完成学习,循序渐进,可以从神经网络、CNN硬件加速器、RTL代码以及综合调试等方面进行展开,掌握每个模块的功能和相互连接,有条件的可以尝试购买相关的硬件FPGA板,完成整个系统的调试和移植。
要求的软件和EDA环境:
(1)操作系统要求:
Window&Centos
(2)EDA 软件要求:
Vivadao2020、Modelsim、Anaconda
(3)硬件要求:
电脑运行内存 >= 16Gb(便于综合)
FPGA开发板:>= xczu5ev
前仿: Vivadao2020、Modelsim
综合:Vivadao2020
项目学习目的:
(1)熟练掌握复杂项目的工程管理;
(2)熟悉 Verilog HDL仿真、FPGA综合工具以及了解数字IC设计工具及流程;
(3)学习CNN网络的基本结构和基础原理;
(4)学习CNN硬件加速器;
(5)熟练掌握Verilog语法和验证方法;
资源占用&板载功耗
整体资源占用约为20%
卷积核心模块占用如下,其中ila为片上逻辑分析仪,后续可以进行优化,进一步降低资源消耗。
板载功耗如下,采用的FPGA开发板包含PS和PL两大模块,其中主要采用PL端,PS端为辅助程序烧录固化,总功耗0.652W。
综合后占用资源如下,其中蓝色部分为占用的资源分布,绿色为走线。
局部放大如下:
总结
整个项目涵盖了完整的卷积神经网络设计,CNN硬化加速器的Verilog实现和仿真和测试所需脚本和环境配置。需要搭建完整的软件和硬件环境,相对先前列出的开源和初级项目来说,整体难度偏高,适合缺少系统项目经验的求职者。
特地注明:整个项目耗费较长的周期和个人精力,项目收费并且保证独一无二(性价比肯定是重要因素,毕竟都有过学生时代)。感兴趣的同学可以通过私信联系,我始终相信好的知识和项目肯定是收费的,网上也有很多类似的课程和项目,但大多数没有从完整的项目需求出发,代码和工程重复率高,不少同学往往是花了很多钱,却没有学到真正的东西。
相关文章:

数字IC实践项目(7)—CNN加速器的设计和实现(付费项目)
数字IC实践项目(7)—基于Verilog的CNN加速器(付费项目) 写在前面的话项目整体框图神经网络框图完整电路框图 项目简介和学习目的软件环境要求 资源占用&板载功耗总结 写在前面的话 项目介绍: 卷积神经网络硬件加速…...

基于深度学习的高精度80类动物目标检测系统(PyTorch+Pyside6+YOLOv5模型)
摘要:基于深度学习的高精度80类动物目标检测识别系统可用于日常生活中或野外来检测与定位80类动物目标,利用深度学习算法可实现图片、视频、摄像头等方式的80类动物目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YO…...

海康摄像头开发笔记(一):连接防爆摄像头、配置摄像头网段、设置rtsp码流、播放rtsp流、获取rtsp流、调优rtsp流播放延迟以及录像存储
文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/131679108 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬结…...
【NCNN】NCNN中Mat与CV中Mat的使用区别及相互转换方法
目录 相同点与不同点cv::Mat转ncnn::Matcv::Mat CV_8UC3 -> ncnn::Mat 3 channel swap RGB/BGRcv::Mat CV_8UC3 -> ncnn::Mat 1 channel do RGB2GRAY/BGR2GRAYcv::Mat CV_8UC1 -> ncnn::Mat 1 channel ncnn::Mat转cv::Mancnn::Mat 3 channel -> cv::Mat CV_8UC3 …...
Android 13 设置自动进入wifi adb模式
Android 13 设置自动进入wifi adb模式 文章目录 Android 13 设置自动进入wifi adb模式一、前言:二、解决Android 13 wifi adb每次重启自动重置问题方法1、分析系统中每次重置wifi adb属性的代码2、在开机广播里面进行设置wifi adb 相关属性(1)…...
(笔记)插入排序
插入排序 插入排序是一种简单且常见的排序算法,它通过重复将一个元素插入到已经排好序的一组元素中,来达到排序的目的。在插入排序算法中,将待排序序列分为已排序和未排序两个部分。初始时,已排序部分只包含一个记录,…...

结构型模式 - 组合模式
概述 对于这个图片肯定会非常熟悉,上图我们可以看做是一个文件系统,对于这样的结构我们称之为树形结构。在树形结构中可以通过调用某个方法来遍历整个树,当我们找到某个叶子节点后,就可以对叶子节点进行相关的操作。可以将这颗树理…...

EDM营销过时了?不,这才是跨境电商成功的最佳工具
根据最近的一项研究,电子邮件仍然是最具说服力的营销工具和沟通形式之一。虽然即时通讯等其他渠道正在扎根,但电子邮件仍然是影响最深远的商业交流形式。到2023年,每天发送和接收的电子邮件总数可能会超过333亿封。所以,如果您希望…...
【大数据之Hive】二十五、HQL语法优化之小文件合并
1 优化说明 小文件优化可以从两个方面解决,在Map端输入的小文件合并,在Reduce端输出的小文件合并。 1.1 Map端输入文件合并 合并Map端输入的小文件是指将多个小文件分到同一个切片中,由一个Map Task处理,防止单个小文件启动一个M…...
spring 连接oracle数据库报错{dataSource-1} init error解决,电脑用户名问题
错误描述: 连接oracle数据就报错,同样的代码其他电脑不会报错。 报错如下: {dataSource-1} init error java.sql.SQLRecoverableException: IO 错误: Undefined Error com.alibaba.druid.pool.DruidDataSource-1049[main]ERROR: {dataSourc…...
行业视野::人工智能与机器人
控制和机器人领域非常重要的quote:莫拉维克悖论(Moravecs paradox) It is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers,and difficult or impossible to give them th…...
【Python入门系列】第十七篇:Python大数据处理和分析
【Python入门系列】第十七篇:Python大数据处理和分析 文章目录 前言一、数据处理和分析步骤二、Python大数据处理和分析库三、Python大数据处理和分析应用1、数据清洗和转换2、数据分析和统计3、数据可视化4、机器学习模型训练和预测5、大规模数据处理和分布式计算6…...

spring.profiles的使用详解
本文来说下spring.profiles.active和spring.profiles.include的使用与区别 文章目录 业务场景spring.profiles.active属性启动时指定 spring.profiles.include属性配置方法配置位置配置区别 用示例来使用和区分测试一测试二测试三 编写程序查看激活的yml文件本文小结 业务场景 …...

Docker使用总结
Docker 1.什么是 Docker 官网的介绍是“Docker is the world’s leading software container platform.” 官方给Docker的定位是一个应用容器平台。 Docker 是一个容器平台的领导者 Docker 容器平台 Docker 应用容器平台 application项目 Mysql Redis MongoDB ElasticSeacrh …...
MySQL 数据库的备份与还原案例分享 2023.07.12
/** 素材一 备份与还原 **/ 1 创建数据库booksDB mysql> create database booksDB; Query OK, 1 row affected (0.00 sec)2.1 创建booksDB表 mysql> use booksDB Database changed mysql> CREATE TABLE books-> (-> bk_id INT NOT NULL PRIMARY KEY,-> …...

verilog实现数码管静态显示
文章目录 verilog实现数码管静态显示一、任务要求二、实验代码三、仿真代码四、仿真结果五、总结 verilog实现数码管静态显示 一、任务要求 六个数码管同时间隔0.5s显示0-f。要求:使用一个顶层模块,调用计时器模块和数码管静态显示模块。 二、实验代码…...

MySQL-DML-添加数据insert
目录 添加数据:insert insert语法 注意事项 修改数据:update update语法 注意事项: 删除数据:delete 删除语法 注意事项 总结 DML英文全称Data Manipulation Language(数据操作语言),…...

Prometheus、Grafana使用
文章目录 系统性能监控相关命令lscputopfreehtopdstatglancesiftopiptrafnethogs 监控软件Prometheus安装、使用将promethues做成服务监控其他机器 exportergrafana配置、使用密码忘记重置 系统性能监控 相关命令 lscpu lscpu 是一个 Linux 命令,用于显示关于 CP…...
UG\NX二次开发 使用throw重新抛出异常
文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan 简介: 在异常处理代码中,可以使用 throw 关键字来抛出异常。如果希望在捕获异常后重新抛出该异常,可以使用类似以下的代码: 在 …...

为什么单片机可以直接烧录程序的原因是什么?
单片机(Microcontroller)可以直接烧录程序的原因主要有以下几点: 集成性:单片机是一种高度集成的芯片,内部包含了处理器核心(CPU)、存储器(如闪存、EEPROM、RAM等)、输入…...
参加技术会议,为程序人生的职业生涯成长添砖加瓦
参加技术会议,为程序人生的职业生涯成长添砖加瓦 关键词:技术会议、程序员职业生涯、职业成长、技术交流、人脉拓展、知识体系升级、职业竞争力 摘要:在快速迭代的IT技术领域,参加技术会议已成为程序员突破职业瓶颈、构建核心竞争力的重要途径。本文从技术会议的核心价值出…...
DAY07:Vue Router深度解析与多页面博客系统实战
第一部分:Vue Router核心概念深度剖析 1.1 现代前端路由的本质 在单页应用(SPA)时代,前端路由扮演着至关重要的角色。它突破了传统多页面应用的跳转方式,通过以下机制实现无刷新页面切换: Hash模式&#…...

【计算机网络】应用层协议Http——构建Http服务服务器
🔥个人主页🔥:孤寂大仙V 🌈收录专栏🌈:计算机网络 🌹往期回顾🌹: 【Linux笔记】——进程间关系与守护进程 🔖流水不争,争的是滔滔不息 一、Http协…...
Linux轻量级文件传输——tftp命令
摘要 TFTP是基于UDP/69端口的轻量文件传输协议。本文整理tftp命令参数/交互命令,提供示例,涵盖文件上传下载、模式设置等核心操作,帮助快速掌握基础文件传输。 一、TFTP核心特性 tftp(Trivial File Transfer Protocol࿰…...

阿里云服务器邮件发送失败(dail tcp xxxx:25: i/o timeout)因为阿里云默认禁用 25 端口
最近在测试发送邮件的功能,发现了一个奇怪的问题,同样的 docker 镜像,在本地跑起来是可以正常发送邮件的,但是在阿里云的服务器上跑,就会报错 i/o timeout。 排查了一圈发现,原来是阿里云的操作࿰…...

算力租赁革命:弹性模式如何重构数字时代的创新门槛
一、算力革命:第四次工业革命的核心驱动力 在科技飞速发展的当下,我们正悄然迎来第四次工业革命。华为创始人任正非在一场程序设计竞赛中曾深刻指出,这场革命的基础便是大算力。随着 5G、人工智能、大数据、物联网等信息技术的迅猛发展&am…...
湖北理元理律师事务所:用科学规划重塑债务人生
在债务问题日益普遍的当下,如何平衡还款压力与生活质量成为社会性难题。湖北理元理律师事务所通过“债务优化生活保障”的双轨服务模式,为债务人构建可持续的解决方案。其核心逻辑在于:债务处置不是剥夺生活,而是重建财务秩序。 …...

如何保护网络免受零日漏洞攻击?
零日漏洞(Zero-Day Vulnerability)是指软件或系统中尚未被厂商发现或修补的安全漏洞。这个名称中的“零日”意味着,从漏洞被发现到厂商发布修复补丁的时间是零天,也就是说,黑客可以利用这个漏洞进行攻击,而…...

CRISPR-Cas系统的小型化研究进展-文献精读137
Progress in the miniaturization of CRISPR-Cas systems CRISPR-Cas系统的小型化研究进展 摘要 CRISPR-Cas基因编辑技术由于其简便性和高效性,已被广泛应用于生物学、医学、农学等领域的基础与应用研究。目前广泛使用的Cas核酸酶均具有较大的分子量(通…...

01.认识Kubernetes
什么是Kubernets 套用官方文档对Kubernetes的定义,翻译成中文的意思是: Kubernetes,也称为k8,是一个用于自动化部署、扩展和管理容器化应用程序的开源系统。 它将组成应用程序的容器分组为逻辑单元,以便于管理和发现…...