FPGA多路红外相机视频拼接输出,提供2套工程源码和技术支持
目录
- 1、前言
- 工程概述
- 免责声明
- 2、相关方案推荐
- 我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目
- 我这里已有的红外相机图像处理解决方案
- 本博已有的已有的FPGA视频拼接叠加融合方案
- 3、工程详细设计方案
- 工程设计原理框图
- 红外相机
- FDMA多路视频拼接算法
- FDMA图像缓存
- 视频读取控制
- HDMI视频输出架构
- 工程源码架构
- 4、vivado工程源码1详解:2路视频拼接版本
- 5、vivado工程源码2详解:4路视频拼接版本
- 6、工程移植说明
- vivado版本不一致处理
- FPGA型号不一致处理
- 其他注意事项
- 7、上板调试验证
- 准备工作
- 2路视频拼接输出效果演示
- 4路视频拼接输出效果演示
- 8、工程代码的获取
FPGA多路红外相机视频拼接输出,提供2套工程源码和技术支持
1、前言
近年来,高端局战争已发生了翻天覆地的变化,以我国云南边境的某外国内战为例,某地方武装正在雨林中猥琐发育,突然天降大批无人机和配套的导弹,甚至简体中文版使用手册也附带其中,于是该地方武装人员操作无人机对敌军造成了巨大损失,敌军被打蒙后,决定学习我军的夜战传统昼伏夜出,结果晚上也被无人机精准击杀,原来无人机上安装了红外摄像头
,从空中俯视,敌军被一个个看得一清二楚。。。。于是敌军又学聪明了,听到无人机声音后立马躲进小树林,结果依然被无人机精准击杀,原来无人机上还安装了热成像摄像头
,从空中俯视,敌军依然被一个个看得一清二楚。。。。敌军这下彻底服了,立马下跪投降,于是骚扰我国的缅北电诈集团被团灭,话事人
也被送到国境内审判,这就是己不战而夺城
,也是无人机+红外相机+热成像仪
在现代战争中的小试牛刀;本设计采用FPGA
为平台,实时采集红外相机
,经过图像缓存后用HDMI
输出;
工程概述
本设计基于Xilinx系列FPGA为平台,搭建红外相机实时采集系统,视频输入源为红外相机,相机输出LVCMOS数字视频接口,即包含 1 个时钟信号线、1 个帧同步(场同步)信号线、1 个行同步信号线、1 个使能信号线和 14 个并行数据信号线。当一帧数据到来时, 帧同步信号置高电平,表示接下来的数据为同一帧数据,这一帧数据结束后帧同步信号置低电平,表示该帧数据结束。同样当一行数据到来时,行同步信号置高 电平,当该行数据结束后,行同步信号置低电平,视频分辨率为640x512;输入视频直接送入本博主常用的FDMA图像缓存架构实现图像两帧缓存,缓存介质为板载DDR3或者Zynq的PS端DDR;然后Native视频时序控制FDMA从DDR3中读取视频并同步输出RGB888视频流;然后使用RGB转HDMI模块或者专用芯片实现RGB视频流转HDMI差分视频信号;最后用显示器显示视频即可;针对市场主流需求,本博客设计并提供1套工程源码,具体如下:
工程源码1
开发板FPGA型号为Xilinx-ZU19EG-xczu19eg-ffvc1760-2-i;视频输入源为红外相机,相机输出LVCMOS数字视频接口,视频分辨率为640x512,将输入红外相机视频复制为2份
,以模拟2路视频输入
;输入视频直接送入本博主常用的FDMA图像缓存架构实现图像两帧缓存,将不同的视频写入不同的内存地址再统一读出来,以达到拼接效果,缓存介质为板载DDR3或者Zynq的PS端DDR;然后Native视频时序控制FDMA从DDR3中读取视频并同步输出RGB888视频流;然后使用silicom9134专用芯片实现RGB视频流转HDMI差分视频信号,输出分辨率为1920x1080@60Hz黑色背景下叠加2路
640x512的有效视频;最后通过HDMI显示器显示;由此形成FPGA+红外相机+视频拼接+HDMI的实时图传架构;该工程适用于FPGA采集红外相机应用;
工程源码2
开发板FPGA型号为Xilinx-ZU19EG-xczu19eg-ffvc1760-2-i;视频输入源为红外相机,相机输出LVCMOS数字视频接口,视频分辨率为640x512,将输入红外相机视频复制为4份
,以模拟4路视频输入
;输入视频直接送入本博主常用的FDMA图像缓存架构实现图像两帧缓存,将不同的视频写入不同的内存地址再统一读出来,以达到拼接效果,缓存介质为板载DDR3或者Zynq的PS端DDR;然后Native视频时序控制FDMA从DDR3中读取视频并同步输出RGB888视频流;然后使用silicom9134专用芯片实现RGB视频流转HDMI差分视频信号,输出分辨率为1920x1080@60Hz黑色背景下叠加4路
640x512的有效视频;最后通过HDMI显示器显示;由此形成FPGA+红外相机+视频拼接+HDMI的实时图传架构;该工程适用于FPGA采集红外相机应用;
本博客详细描述了Xilinx系列FPGA实时红外相机采集输出系统的设计方案,工程代码可综合编译上板调试,可直接项目移植,适用于在校学生、研究生项目开发,也适用于在职工程师做学习提升,可应用于医疗、军工等行业的高速接口或图像处理领域;
提供完整的、跑通的工程源码和技术支持;
工程源码和技术支持的获取方式放在了文章末尾,请耐心看到最后;
免责声明
本工程及其源码即有自己写的一部分,也有网络公开渠道获取的一部分(包括CSDN、Xilinx官网、Altera官网以及其他开源免费获取渠道等等),若大佬们觉得有所冒犯,请私信批评教育;部分模块源码转载自上述网络,版权归原作者所有,如有侵权请联系我们删除;基于此,本工程及其源码仅限于读者或粉丝个人学习和研究,禁止用于商业用途,若由于读者或粉丝自身原因用于商业用途所导致的法律问题,与本博客及博主无关,请谨慎使用。。。
2、相关方案推荐
我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目
其实一直有朋友反馈,说我的博客文章太多了,乱花渐欲迷人,自己看得一头雾水,不方便快速定位找到自己想要的项目,所以本博文置顶,列出我目前已有的所有项目,并给出总目录,每个项目的文章链接,当然,本博文实时更新。。。以下是博客地址:
点击直接前往
我这里已有的红外相机图像处理解决方案
我的主页有FPGA红外相机图像处理专栏,该专栏有关于红外相机图的各种图像处理;以下是专栏地址:
点击直接前往
本博已有的已有的FPGA视频拼接叠加融合方案
我的主页目前有FPGA视频拼接叠加融合专栏,改专栏收录了我目前手里已有的FPGA视频拼接叠加融合方案,从实现方式分类有基于HSL实现的视频拼接、基于纯verilog代码实现的视频拼接;从应用上分为单路、2路、3路、4路、8路、16路视频拼接;视频缩放+拼接;视频融合叠加;从输入视频分类可分为OV5640摄像头视频拼接、SDI视频拼接、CameraLink视频拼接等等;以下是专栏地址:
点击直接前往
3、工程详细设计方案
工程设计原理框图
工程设计原理框图如下:
红外相机
视频输入源为红外相机,相机输出LVCMOS数字视频接口,即包含 1 个时钟信号线、1 个帧同步(场同步)信号线、1 个行同步信号线、1 个使能信号线和 14 个并行数据信号线。当一帧数据到来时, 帧同步信号置高电平,表示接下来的数据为同一帧数据,这一帧数据结束后帧同步信号置低电平,表示该帧数据结束。同样当一行数据到来时,行同步信号置高 电平,当该行数据结束后,行同步信号置低电平,视频分辨率为640x512;红外相机视频输出时序如下:
LVCMOS 视频数据每一个像素的数据对应 1 个时钟周期。每一帧的数据量与 机芯探测器的面阵大小相同,机芯探测器面阵大小为 640512,LVCMOS 每一帧 包含 640512=327680 个像素的数据,每行有 640 个数据,共有 512 行。即每个 行同步信号高电平持续的时间为 640 个时钟周期,在一帧数据期间,行同步信号 共有 512 次被置为高电平。在上图中,同步信号和数据信号都是在时钟的上升沿 进行变化,在实际的程序设计中,可以令信号在时钟的下降沿开始变化,以便于接收端在时钟的上升沿进行采样。
FDMA多路视频拼接算法
纯verilog多路视频拼接方案如下:以4路视频拼接为例;
输出屏幕分辨率为1920X1080;
需要拼接的4路视频分辨率为960X540;
4路输入刚好可以占满整个屏幕;
多路视频的拼接显示原理如下:
以把 2 个摄像头 CAM0 和 CAM1 输出到同一个显示器上为列,为了把 2 个图像显示到 1 个显示器,首先得搞清楚以下关系:
hsize:每 1 行图像实际在内存中占用的有效空间,以 32bit 表示一个像素的时候占用内存大小为 hsize X 4;
hstride:用于设置每行图像第一个像素的地址,以 32bit 表示一个像素的时候 v_cnt X hstride X 4;
vsize:有效的行;
因此很容易得出 cam0 的每行第一个像素的地址也是 v_cnt X hstride X 4;
同理如果我们需要把 cam1 在 hsize 和 vsize 空间的任何位置显示,我们只要关心 cam1 每一行图像第一个像素的地址,可以用以下公式 v_cnt X hstride X 4 + offset;
uifdma_dbuf 支持 stride 参数设置,stride 参数可以设置输入数据 X(hsize)方向每一行数据的第一个像素到下一个起始像素的间隔地址,利用 stride 参数可以非常方便地摆放输入视频到内存中的排列方式。
关于uifdma_dbuf,可以参考我之前写的文章点击查看:FDMA实现视频数据三帧缓存
根据以上铺垫,每路摄像头缓存的基地址如下:
CAM0:ADDR_BASE=0x80000000;
CAM1:ADDR_BASE=0x80000000+(1920-960)X4;
CAM2:ADDR_BASE=0x80000000+(1080-540)X1920X4;
CAM3:ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-960)X4;
地址设置完毕后基本就完事儿了;
FDMA图像缓存
使用本博常用的FDMA图像缓存架构实现图像3帧缓存,缓存介质为板载的DDR3;FDMA图像缓存架构由FDMA、FDMA控制器、缓存帧选择器构成、Xilinx MIG IP核构成;图像缓存使用Xilinx vivado的Block Design设计,他的作用是将图像送入DDR中做3帧缓存再读出显示,目的是匹配输入输出的时钟差和提高输出视频质量,FDMA图像缓存架构如下图所示:截图为4路视频拼接,其他多路视频拼接与之类似;
这里多路视频拼接时,调用多路FDMA进行缓存,具体讲就是每一路视频调用1路FDMA,以4路视频拼接为例:
调用4路FDMA,其中三路配置为写模式,因为这三路视频在这里只需要写入DDR3,读出是由另一个FDMA完成,配置如下:
另外1路FDMA配置为读写模式,因为4路视频需要同时一并读出,配置如下:
视频拼接的关键点在于4路视频在DDR3中缓存地址的不同,还是以4路视频拼接为例,4路FDMA的写地址以此为:
第一路视频缓存写基地址:0x80000000;
第二路视频缓存写基地址:0x80000f00;
第三路视频缓存写基地址:0x803f4800;
第四路视频缓存写基地址:0x803f5700;
视频缓存读基地址:0x80000000;
视频读取控制
FDMA图像缓存架构使用VGA时序模块完成视频读取控制,Native视频时序模块负责产生VGA时序,他有两个作用,一是控制FDMA控制器从DDR3中读出缓存的视频,二是将同步后的VGA视频送入下一级模块;
HDMI视频输出架构
缓存图像从DDR3读出后经过Native时序生成模块输出标准的VGA时序视频,然后经过纯verilog显示的RGB转HDMI模块输出HDMI差分视频;然后使用silicom9134专用芯片实现RGB视频流转HDMI差分视频信号,输出分辨率为1920x1080@60Hz黑色背景下叠加640x512的有效视频;最后通过HDMI显示器显示;silicom9134需要i2c配置才能使用,代码中配置如下:
工程源码架构
工程Block Design设计如下:
综合后的工程源码架构如下:
工程使用了Zynq系列FPGA;PL端时钟由Zynq软核提供,所以需要运行运行SDK以启动Zynq,所以需要在SDK里运行一个简单的hello world程序,SDK软件代码架构如下:
工程编译后资源消耗低、功耗低、时序收敛,符合工程项目应用要求,如下:
上图只是举例,资源消耗并非本工程的实际消耗,实际消耗请看下文的《工程代码详解》;
4、vivado工程源码1详解:2路视频拼接版本
开发板FPGA型号:Xilinx-ZU19EG-xczu19eg-ffvc1760-2-i;
FPGA开发环境:Vivado2019.1;
输入:红外相机,分辨率640x512@30Hz;
输出:HDMI,silicom9134芯片编码方案,1920x1080@60Hz背景下叠加显示2路拼接的640x512的有效图像;
图像缓存方案:自研FDMA方案;
图像缓存介质:板载DDR3;
视频拼接方案:自研FDMA方案;
视频拼接应用:2路视频拼接;
实现功能:FPGA多路红外相机视频拼接输出;
工程作用:此工程目的是让读者掌握FPGA多路红外相机视频拼接输出的设计能力,以便能够移植和设计自己的项目;
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容;
工程的资源消耗和功耗如下:
5、vivado工程源码2详解:4路视频拼接版本
开发板FPGA型号:Xilinx-ZU19EG-xczu19eg-ffvc1760-2-i;
FPGA开发环境:Vivado2019.1;
输入:红外相机,分辨率640x512@30Hz;
输出:HDMI,silicom9134芯片编码方案,1920x1080@60Hz背景下叠加显示4路拼接的640x512的有效图像;
图像缓存方案:自研FDMA方案;
图像缓存介质:板载DDR3;
视频拼接方案:自研FDMA方案;
视频拼接应用:4路视频拼接;
实现功能:FPGA多路红外相机视频拼接输出;
工程作用:此工程目的是让读者掌握FPGA多路红外相机视频拼接输出的设计能力,以便能够移植和设计自己的项目;
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容;
工程的资源消耗和功耗如下:
6、工程移植说明
vivado版本不一致处理
1:如果你的vivado版本与本工程vivado版本一致,则直接打开工程;
2:如果你的vivado版本低于本工程vivado版本,则需要打开工程后,点击文件–>另存为;但此方法并不保险,最保险的方法是将你的vivado版本升级到本工程vivado的版本或者更高版本;
3:如果你的vivado版本高于本工程vivado版本,解决如下:
打开工程后会发现IP都被锁住了,如下:
此时需要升级IP,操作如下:
FPGA型号不一致处理
如果你的FPGA型号与我的不一致,则需要更改FPGA型号,操作如下:
更改FPGA型号后还需要升级IP,升级IP的方法前面已经讲述了;
其他注意事项
1:由于每个板子的DDR不一定完全一样,所以MIG IP需要根据你自己的原理图进行配置,甚至可以直接删掉我这里原工程的MIG并重新添加IP,重新配置;
2:根据你自己的原理图修改引脚约束,在xdc文件中修改即可;
3:纯FPGA移植到Zynq需要在工程中添加zynq软核;
7、上板调试验证
准备工作
需要准备的器材如下:
红外相机,没有的可以找本博提供;
FPGA开发板,没有开发板可以找本博提供;
HDMI显示器和HDMI线缆;
我的开发板了连接如下:
2路视频拼接输出效果演示
2路视频拼接输出效果演示如下:
红外-2路
4路视频拼接输出效果演示
4路视频拼接输出效果演示如下:
红外-4路
8、工程代码的获取
代码太大,无法邮箱发送,以某度网盘链接方式发送,
资料获取方式:文章末尾名片。
网盘资料如下:
此外,有很多朋友给本博主提了很多意见和建议,希望能丰富服务内容和选项,因为不同朋友的需求不一样,所以本博主还提供以下服务:
相关文章:

FPGA多路红外相机视频拼接输出,提供2套工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目我这里已有的红外相机图像处理解决方案本博已有的已有的FPGA视频拼接叠加融合方案 3、工程详细设计方案工程设计原理框图红外相机FDMA多路视频拼接算法FDMA图像缓存视…...

python实战(十二)——如何进行新词发现?
一、概念 新词发现是NLP的一个重要任务,旨在从大量的文本数据中自动识别和提取出未在词典中出现的新词或短语,这对于信息检索、文本挖掘、机器翻译等应用具有重要意义,因为新词往往包含了最新的知识和信息。 随着互联网的不断发展,…...

动手做计算机网络仿真实验入门学习
打开软件 work1 添加串行接口模块,先关电源,添加之后再开电源 自动选择连接 所有传输介质 自动连接 串行线 绿色是通的,红色是不通的。 显示接口。se是serial串行的简写。 Fa是fast ethernet的简写。 为计算机配置ip地址: 为服…...
完整的 FFmpeg 命令使用教程
FFmpeg 是一个开源的跨平台音视频处理工具,它能够处理几乎所有的视频、音频格式,并提供了强大的功能如格式转换、视频剪辑、合并、提取音频等。FFmpeg 通过命令行界面(CLI)操作,尽管有一些图形界面的前端工具ÿ…...
Leetcode 3405. Count the Number of Arrays with K Matching Adjacent Elements
Leetcode 3405. Count the Number of Arrays with K Matching Adjacent Elements 1. 解题思路2. 代码实现 题目链接:3405. Count the Number of Arrays with K Matching Adjacent Elements 1. 解题思路 这一题虽然是一道hard的题目,但是委实是有点名不…...

Springboot(五十六)SpringBoot3集成SkyWalking
这里我们将skywalking集成到Springboot中。 关于docker部署skyWalking的相关问题,请移步《docker(二十八)docker-compose部署链路追踪SkyWalking》 一:下载java-agents 先放一下skyWalking的官网下载地址 Downloads | Apache SkyWalking 其他的版本的 APM 地址(这个我不需…...

有没有免费提取音频的软件?音频编辑软件介绍!
出于工作和生活娱乐等原因,有时候我们需要把音频单独提取出来(比如歌曲伴奏、人声清唱等、乐器独奏等)。要提取音频必须借助音频处理软件,那么有没有免费提取音频的软件呢?下面我们将为大家介绍几款免费软件࿰…...

Linux 中查看内存使用情况全攻略
Linux 中查看内存使用情况全攻略 在 Linux 系统运维与开发工作里,精准掌握内存使用状况对系统性能优化、故障排查起着举足轻重的作用。Linux 提供了多款实用工具来查看内存详情,下面我们就结合实际示例,深入了解这些工具的使用方法。 一、fr…...

【SQL Server】教材数据库(3)
接着教材数据库(1)的内容,完成下列查询。 1 查询订购高等教育出版社教材的学生姓名 2 查询比所有高等教育出版社的图书都贵的图书信息 3 列出每位学生姓名、订购教材书名、价格。 1、嵌套查询:use jiaocai select student.nam…...
使用 ECharts 与 Vue 构建数据可视化组件
在前端开发中,数据可视化是非常重要的一部分。ECharts 作为一个功能强大且易于使用的开源数据可视化库,被广泛应用于各种图表展示需求中。而 Vue.js 是当下流行的前端框架之一,它的数据驱动和组件化开发模式让我们能轻松地将 ECharts 集成到 …...

Yocto 项目 - 共享状态缓存 (Shared State Cache) 机制
引言 在嵌入式开发中,构建效率直接影响项目的开发进度和质量。Yocto 项目通过其核心工具 BitBake 提供了灵活而强大的构建能力。然而,OpenEmbedded 构建系统的传统设计是从头开始构建所有内容(Build from Scratch),这…...

Unity3D仿星露谷物语开发9之创建农场Scene
1、目标 绘制农场的场景。通过不同Sorting Layer控制物体的显示优先级,绘制Tilemap地图,添加Tilemap Collider碰撞器,同时添加Composite Collider碰撞器优化性能。 ps:绘制Tilemap的技巧:通过"Shift [" 可…...

STM32-笔记20-测量按键按下时间
1、按键按下的时间-思路 我们先检测下降沿信号,检测到以后,在回调函数里切换成检测上升沿信号,当两个信号都检测到的时候,这段时间就是按键按下的时间,如图所示:>N*(ARR1)CCRx的值 N是在这段时间内&…...

2024年12月30日Github流行趋势
项目名称:free-programming-books 项目地址url:https://github.com/EbookFoundation/free-programming-books项目语言:HTML历史star数:343,398今日star数:246项目维护者:vhf, eshellman, davorpa, MHM5000,…...

SAP PP bom历史导出 ALV 及XLSX 带ECN号
bom总数 104W PS超过XLSX上限 ,那就分文件 *&---------------------------------------------------------------------* *& Report ZRPT_PP_BOM_HIS_ECN *&---------------------------------------------------------------------* *& tcode:zpp0…...
使用WebRTC进行视频通信
一、WebRTC技术简介 什么是WebRTC? 是一种支持浏览器之间实时音频、视频和数据传输的开放源代码项目。它允许开发者在不需要任何第三方插件或软件的情况下实现点对点的实时通信。WebRTC已经成为现代Web应用中的关键技术,为开发者提供了强大的工具和API…...

npm ERR! ECONNRESET 解决方法
问题:npm 命令遇到的错误是 ECONNRESET,这通常与网络连接问题相关。设置代理解决问题。 一、查看当前代理设置 npm config get proxy npm config get https-proxy二、设置代理 npm config set proxy http://your-proxy-address:port npm config set h…...

【连续学习之SS-IL算法】2021年CPVR会议论文Ss-il:Separated softmax for incremental learning
1 介绍 年份:2021 期刊: 2021CPVR Ahn H, Kwak J, Lim S, et al. Ss-il: Separated softmax for incremental learning[C]//Proceedings of the IEEE/CVF International conference on computer vision. 2021: 844-853. 本文提出的SS-IL(…...

Go+chromedp实现Web UI自动化测试
1.为什么使用go进行UI自动化测试? 速度:Go速度很快,这在运行包含数百个UI测试的测试套件时是一个巨大的优势 并发性:可以利用Go的内置并发性(goroutines)来并行化测试执行 简单:Go的简约语法允许您编写可读且可维护…...
【MySQL 高级特性与性能优化】
MySQL 高级特性与性能优化 一、MySQL 存储引擎 (一)InnoDB 存储引擎 1. 特点 支持事务:InnoDB 是 MySQL 中提供完整 ACID 事务支持的存储引擎,这意味着它能够保证数据库操作在复杂的并发环境下的一致性、隔离性、原子性和持久…...

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...

【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...
mongodb源码分析session执行handleRequest命令find过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令,把数据流转换成Message,状态转变流程是:State::Created 》 St…...

自然语言处理——循环神经网络
自然语言处理——循环神经网络 循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式 参数学习和长程依赖问题基于门控的循环神经网络门控循环单元(GRU)长短期记忆神经网络(LSTM)…...

嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...
【无标题】路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论
路径问题的革命性重构:基于二维拓扑收缩色动力学模型的零点隧穿理论 一、传统路径模型的根本缺陷 在经典正方形路径问题中(图1): mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...
深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏
一、引言 在深度学习中,我们训练出的神经网络往往非常庞大(比如像 ResNet、YOLOv8、Vision Transformer),虽然精度很高,但“太重”了,运行起来很慢,占用内存大,不适合部署到手机、摄…...
pycharm 设置环境出错
pycharm 设置环境出错 pycharm 新建项目,设置虚拟环境,出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...
LeetCode 0386.字典序排数:细心总结条件
【LetMeFly】386.字典序排数:细心总结条件 力扣题目链接:https://leetcode.cn/problems/lexicographical-numbers/ 给你一个整数 n ,按字典序返回范围 [1, n] 内所有整数。 你必须设计一个时间复杂度为 O(n) 且使用 O(1) 额外空间的算法。…...
MeanFlow:何凯明新作,单步去噪图像生成新SOTA
1.简介 这篇文章介绍了一种名为MeanFlow的新型生成模型框架,旨在通过单步生成过程高效地将先验分布转换为数据分布。文章的核心创新在于引入了平均速度的概念,这一概念的引入使得模型能够通过单次函数评估完成从先验分布到数据分布的转换,显…...