当前位置: 首页 > article >正文

AI系统-20AI芯片ISP视觉系统介绍

人有五感眼睛、耳朵、鼻子、舌头和皮肤。 这些器官中的专门细胞和组织会接收原始刺激并将其转化为神经系统可以使用的信号。 神经将信号传递到大脑大脑将其解释为影像视觉、声音听觉、气味嗅觉、味道味觉和触感触觉。但是对于机器则不局限于这五种感官只要能造出来传感器可以转化为电信号都可以但是最终人类要使用还是必须转化为人类的五种感官去接收其中五感最重要的就是视觉。由于人使用视觉非常的多那么基于视觉的智能人类天然的拥有人类的行为很多受视觉的影响所以造机器的时候给机器按一双眼睛来模拟人类的智能是刻不容缓。在手机、汽车、机器人都会有摄像头搭配上AI算法就可以实现智能例如自动驾驶、自主干家务等。那么其中的技术原理例如摄像头怎么把光信号变成电信号电信号又怎么还原成图片电信号数据化怎么给芯片去处理等问题本文将深入浅出的进行介绍。1. 摄像机工作原理介绍1.1 相机成像整体流程图像传感器SENSOR是一种半导体芯片其表面包含有几十万到几百万的光电二极管。光电二极管受到光照射时就会产生电荷。目前的 SENSOR 类型有两种1.CCDCharge Couple Device)电荷耦合器件它是目前高像素类 sensor 中比较成熟的成像器件是以一行为单位的电流信号。2.CMOSComplementary Metal Oxide Semiconductor互补金属氧化物半导体。CMOS的信号是以点为单位的电荷信号更为敏感速度也更快更为省电上图中少画了ISPImage Signal Processing其实相机单纯的RAM 数据人类看是失真的需要ISP进行处理后续会详细介绍ISP会修复哪些相机的缺陷。DSP 控制芯片的作用是将感光芯片获取的数据及时快速地传到 baseband 中并刷新感光芯片因此控制芯片的好坏直接决定画面品质比如色彩饱和度、清晰度与流畅度。这个是相机使用我们在AI SoC中数据是不需要显示的直接就输出给NPU去进行运算了。下面一个图更加专业的说明了ISP的位置作用1.2 sensor原理我们都知道彩色是RGB三原色组成的屏幕显示就是RGB三原色例如把一个RGB格式的图片显示到屏幕上就是点亮屏幕上对应RGB位置的亮点就可以。这是显示的一个过程但是这个RGB格式的图片怎么得到首先就是捕捉RGB三原色的传感器sensorsensor由密密麻麻排列的收集光线的光腔组成如上图的阵列。光腔会把光信号的强弱转化为电信号的值一个光腔只能产生一个电信号值那就让其只接收RGB中的一种光光腔上面用滤光片挡住其他光就可以了。光腔的排列如上图也叫“拜耳阵列”。这样就可以抓取每行的RGB颜色了这样的数据称为RAW Data。然后再转换成RGB格式不就可以了理想很美好但是现实很打脸。反常作妖的东西我们拆开来一一介绍并且ISP就是镇妖神器。2. ISP功能介绍相机看到的转化为人类看的图片就是ISPImage Signal Processing要干的活可以说都是些无厘头的脏活累活。具体就是相机看到的图片有如下问题Bayer马赛克、黑电平补偿 black level compensation、镜头矫正lens shading correction、坏像素矫正bad pixel correction、颜色插值 demosaic、Bayer 噪声去除、 白平衡AWB 矫正、 色彩矫正color correction、gamma 矫正、色彩空间转换RGB 转换为 YUV、在YUV 色彩空间上彩噪去除与边缘加强、色彩与对比度加强中间还要进行自动曝光控制等 这些都需要ISP去处理然后输出 YUV或者RGB 格式的数据 再通过 I/O 接口传输到 CPU 中处理。要实现上面说的功能实现上有软件和硬件部分部分算法使用硬件实现并且有核可以运行软件固件。如上图ISP这个子系统里面就有CPU和外设并且可以集成到SoC中去或者其本身就是一个SoC芯片了。CPUCPU 即中央处理器可以运行 AF、LSC 等各种图像处理算法控制外围设备。现代的 ISP 内部的 CPU 一般都是 ARM Cortex-A 系列的例如 Cortex-A5、Cortex-A7。SUB IPSUB IP 是各种功能模块的通称对图像进行各自专业的处理。常见的 SUB IP 如 DIS、CSC、VRA 等。图像传输接口图像传输接口主要分两种并口 ITU 和串口 CSI。CSI 是 MIPI CSI的简称鉴于 MIPI CSI 的诸多优点在手机相机领域已经广泛使用 MIPI-CSI 接口传输图像数据和各种自定义数据。外置 ISP 一般包含 MIPI-CSIS 和 MIPI-CSIM 两个接口。内置 ISP 一般只需要 MIPI-CSIS 接口。通用外围设备通用外围设备指 I2C、SPI、PWM、UART、WATCHDOG 等。ISP 中包含 I2C 控制器用于读取 OTP 信息控制 VCM 等。对于外置 ISPISP 本身还是 I2C 从设备。AP 可以通过 I2C 控制 ISP 的工作模式获取其工作状态等。1.3 拜耳阵列首先拜耳阵列中包含的绿色传感器是红色或蓝色传感器的两倍。由于人眼对绿光比红光和蓝光更敏感因此每种原色不会获得总面积的同等比例。绿色像素的冗余会生成一个图像该图像看起来不那么嘈杂并且具有比每种颜色均等处理时所能完成的更精细的细节。这也解释了为什么绿色通道中的噪音比其他两种主要颜色要小得多常见图像噪声及产生原因高斯、泊松和椒盐噪声。例如上面这个原始场景图在相机sensor视角传感器原始获取数据直接显示如下放大如下里面还是三原色显示某一个点上的值强弱来决定这种颜色的强弱。到这里很明显这个相机看到的图片需要进行处理才能变为人类看到的自然界的镜像。这里人眼和sensor竟然看到的东西不一样太神奇了。一个问题就是到底谁看到的才是真实的应该是两者都看到了真实的世界只是表示方法不一样就像两种语言需要中间进行翻译。由此引出一个更深奥的问题哪种数据更适合AI训练目前都是按人类看的图片给AI进行训练的因为人类可以去判断图片是否正确还依赖人类。但是长远来说sensor直接获取的数据应该更加适合同样是机器的AI去计算这是一个趋势但需要大胆尝试可能已经超出人类正常的理解过程只能去靠分析看效果了。2.2 拜尔马赛克转换图像在将实际的景物转换为图像数据时 通常是将传感器分别接收红、 绿、 蓝三个分量的信息 然后将红、 绿、 蓝三个分量的信息合成彩色图像。 该方案需要三块滤镜 这样价格昂贵且不好制造 因为三块滤镜都必须保证每一个像素点都对齐。 通过在黑白 cmos 图像传感器的基础上 增加彩色滤波结构和彩色信息处理模块就可以获得图像的彩色信息 再对该彩色信息进行处理 就可以获得色彩逼真的彩色图像。通常把彩色图像传感器表面覆盖的滤波称为彩色滤波阵列Color Filter ArraysCFA。 目前最常用的滤镜阵列是棋盘格式的 已经有很多种类的 其中绝大多数的摄像产品采用的是原色贝尔模板彩色滤波阵列Bayer Pattern CFA。R、G、B 分别表示透红色、透绿色和透蓝色的滤镜阵列单元。由于人的视觉对绿色最为敏感所以在 Bayer CFA 中G分量是 R和B 的二倍在每个像素点上只能获取一种色彩分量的信息然后根据该色彩分量的信息通过插值算法得到全色彩图像。拜耳阵列直接获取的信息比较少需要原色阵列转换为包含每个像素全彩色信息的最终图像的过程。像素对某些波长组之间的光很敏感本质上是颜色不可知的。获取彩色图像的方法是在顶部放置一个滤镜通常是拜耳图案滤色镜然后对相邻像素的颜色进行插值。8 MP CMOS不会为每个像素感应红色绿色和蓝色而是为每个像素感应一种颜色然后ISP根据旁边的颜色猜测颜色。这就是所谓的去马赛克可能是ISP的主要工作并且有许多秘密的调解方法来计算此插值图像这估计是各个品牌相机的核心技术。当光线通过 Bayer型 CFAColor Filter Arrays 阵列之后 单色光线打在传感器上每个像素都为单色光从而理想的Bayer 图是一个较为昏暗的马赛克图。首先需要说明的就是demosaiced并不是和字面的意思一样是为了去除电影中的一些打马赛克的图像而是数字图像处理中用来从不完整的color samples插值生成完整的color samples的方法(因为bayer pattern看起来像一个个马赛克因此称为去马赛克)。在sensor端通常需要使用CFA滤镜来得到Bayer pattern而在后面的处理中需要把bayer pattern变成完整的RGB444(真彩色)图像。在ISP中需要有这么一个模块来做。在传统的ISP中有很多算法可以来做这个插值包括最近邻域法bilinear 插值cubic 插值等。2.3 镜头的几何变形由于镜头本身的物理性质 造成图像四周亮度相对中心亮度逐渐降低以及由于图像光照在透过镜头照射到 pixel 上时边角处的焦点夹角大于中心焦点夹角造成边角失光。表现在图像上的效果就是亮度从图像中心到四周逐渐衰减 且离图像中心越远亮度越暗。 为了补偿四周的亮度 需要进行 Lens Shading 的矫正。Lens Shading 的矫正的方法是根据一定的算法计算每个像素对应的亮度矫正值从而补偿周边衰减的亮度。矫正方法有二次项矫正、 四次项矫正。2.4 镜头渐晕Flare offset光学上称Flare也叫stray light,耀斑补偿。镜片的表面反射或镜筒、反光镜组的内面所引起的反射光到达底面后造成画面整体或一部份产生了雾蒙降低了图像的鲜锐度。镜片的镀膜及内面防反射处理的加强固然可以大幅度地减少光斑但被摄体的状况并不相同不可能完全消除。2.5 曝光控制曝光不足2.6 黑电平校正BLCBlack Level Correction黑电平校正。所谓黑电平就是在DNP下将曝光时间和增益都调到最小时拍摄图片的亮度值理想情况下应该是0但是实际中因为sensor暗电流作用全黑像素值大于0。这一个值在后面可能会受到AWBGainCCMGamma的影响。物理器件不可能是理想的 由于杂质、 受热等其他原因的影响 即使没有光照射到象素象素单元也会产生电荷 这些电荷产生了暗电流。 而且 暗电流与光照产生的电荷很难进行区分。Black Level 是用来定义图像数据为0时对应的信号电平。由于暗电流的影响 传感器出来的实际原始数据并不是我们需要的黑平衡数据不为0。所以为减少暗电流对图像信号的影响可以采用的有效的方法是从已获得的图像信号中减去参考暗电流信号。一般情况下 在传感器中实际像素要比有效像素多 如下图所示 像素区头几行作为不感光区 实际上这部分区域也做了RGB 的 color filter用于自动黑电平校正其平均值作为校正值 然后在下面区域的像素都减去此矫正值那么就可以将黑电平矫正过来了。做了black level 矫正与没做black level 矫正的对比没做black level矫正的图片会比较亮影响图像的对比度。2.7 图像噪音指的是图像中的杂点干扰表现为图像中有固定的彩色杂点。使用 cmos sensor获取图像光照程度和传感器问题是生成图像中大量噪声的主要因素。同时 当信号经过ADC 时 又会引入其他一些噪声。 这些噪声会使图像整体变得模糊 而且丢失很多细节 所以需要对图像进行去噪处理空间去噪传统的方法有均值滤波、 高斯滤波等。但是 一般的高斯滤波在进行采样时主要考虑了像素间的空间距离关系 并没有考虑像素值之间的相似程度 因此这样得到的模糊结果通常是整张图片一团模糊。 所以 一般采用非线性去噪算法 例如双边滤波器 在采样时不仅考虑像素在空间距离上的关系 同时加入了像素间的相似程度考虑 因而可以保持原始图像的大体分块 进而保持边缘。固定模式噪声。由于CMOS每个感光二极体旁都搭配一个ADC 放大器如果以百万像素计那么就需要百万个以上的 ADC 放大器但是每个像素结构中的光电二极管的尺寸、掺杂浓度、生产过程中的沾污以及MOS场效应管的参数的偏差等都会造成像素输出信号的变化。对于给定的单个像素它是固定的。通常消除固定模式噪声采用“双采样降噪”方法这是CMOS 感光器件特有的一种降噪方式。在光线较暗的环境下使用时画面会有明显的噪声这时通过对景物进行两次不同曝光率和敏感度的采样然后将两次采样的结果进行综合处理就可以有效解决低照度下的图像噪声问题。2.8 白平衡处理技术(AWB)AWBAuto White Balance 自动白平衡。解决环境光不同色温导致整幅图片偏色的情况。白平衡指不管在任何光源下都能将白色物体还原为白色。白平衡是描述显示器或相机中红、绿、蓝三基色混合生成后白色精确度的一项指标。色温表示光谱成份光的颜色。色温低表示长波光成分多。当色温改变时光源中三基色红、绿、蓝的比例会发生变化需要调节三基色的比例来达到彩色的平衡这就是白平衡调节的实际。图象传感器的图象数据被读取后系统将对其进行针对镜头的边缘畸变的运算修正然后经过坏像处理后被系统送进去进行白平衡处理在不同的环境光照下人类的眼睛可以把一些“白”色的物体都看成白色是因为人眼进行了修正。但是SENSOR没有这种功能因此需要对SENSOR输出的信号进行一定的修正这就是白平衡处理技术。白平衡的基本原理是在任意环境下 把白色物体还原成白色物体 也就是通过找到图像中的白块 然后调整R/G/B 的比例 如下关系R′R∗RGainR′R∗RGainG′G∗GGainG′G∗GGainB′B∗BGainB′B∗BGainR′G′B′R′G′B′AWB 算法通常包括的步骤如下(1)色温统计 根据图像统计出色温(2)计算通道增益 计算出R 和B 通道的增益(3)进行偏色的矫正 根据给出的增益 算出偏色图像的矫正。2.9 坏点矫正 BPC(Bad Pixel Correction)坏点校正/坏点检测。相机中成像坏点一般是白色或者黑色的点和周围像素点的差异明显。a.坏点坏点为全黑环境下输出图像中的白点高亮环境下输出图像中的黑点。b.坏点修复方法一般情况下 RGB 信号应与景物亮度呈线性响应关系 但由于 Senor 部分 pixel 不良导致输出的信号不正常 出现白点或黑点。坏点修复方法通常有两种 一种是自动检测坏点并自动修复 另一种是建立坏点像素链表进行固定位置的坏像素点修复 这种方式是 OTP 的方式。2.10 Color Correction颜色矫正由于人类眼睛可见光的频谱响应度和半导体传感器频谱响应度之间存在差别还有透镜等的影响 得到的RGB 值颜色会存在偏差 因此必须对颜色进行校正 通常的做法是通过一个3x3 的颜色变化矩阵来进行颜色矫正。2.11 Gamma Correction伽马矫正人眼对外界光源的感光值与输入光强不是呈线性关系的 而是呈指数型关系的。 在低照度下人眼更容易分辨出亮度的变化 随着照度的增加人眼不易分辨出亮度的变化。而摄像机感光与输入光强呈线性关系 为方便人眼辨识图像 需要将摄像机采集的图像进行gamma 矫正。Gamma 矫正是对输入图像灰度值进行的非线性操作 使输出图像灰度值与输入图像灰度值呈指数关系out Vin ^ gamma这个指数就是 gamma 横坐标是输入灰度值 纵坐标是输出灰度值 蓝色曲线是 gamma 值小于 1 时的输入输出关系 红色曲线是 gamma 值大于 1 时的输入输出关系。 可以观察到 当 gamma 值小于 1 时(蓝色曲线) 图像的整体亮度值得到提升 同时低灰度处的对比度得到增加 更利于分辩低灰度值时的图像细节。2.12 色彩空间转换YUV 是一种基本色彩空间 人眼对亮度改变的敏感性远比对色彩变化大很多 因此 对于人眼而言 亮度分量Y 要比色度分量U、V 重要得多。 所以 可以适当地抛弃部分U、V分量 达到压缩数据的目的。 YCbCr 其实是YUV 经过缩放和偏移的改动版Y 表示亮度Cr、Cb 表示色彩的色差RGB信号亮度值之间的差异分别是红色和蓝色的分量。 在YUV 家族中YCbCr 是在计算机系统中应用最多的成员 其应用领域很广泛JPEG、MPEG 均采用此格式。 一般人们所讲的YUV 大多是指YCbCr。YCbCr有许多取样格式如 4∶4∶44∶2∶2 4∶1∶1和 4∶2∶0。Cb反映的是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异。色彩空间转换这个模块 是将RGB 转换为 YUV444 然后在YUV 色彩空间上进行后续的彩色噪声去除、 边缘增强等 也为后续输出转换为jpeg 图片提供方便。2.13 Color Denoise为了抑制图像的彩色噪声 一般采用低通滤波器进行处理。 例如使用M×N的高斯低通滤波器在色度通道上进行处理。阴影校正。Lens Shading是由于镜片从边缘到中心对入射光线的反射程度不同造成拍摄均匀亮度的画面图像从中心到边缘亮度不均匀逐渐变暗。Color Shading是由于Lens从中心到边缘其R、G、B变暗的速率不一样总体表现就是Gb/Gr像素值差异较大两个像素之间有细微纹理。找出shading的distribution然后用最小的模型来建模将其导入2.14 图形压缩上面只是ISP处理的部分问题看完你可能要说ISP干的都是些什么事就净给sensor硬件的缺陷擦屁股了这点也看出来我们人类的眼睛相对sensor还是高级了不少多少年的进化不是白给的。3. ISP架构3.1 ISP构成CPUCPU 即中央处理器可以运行 AF、LSC 等各种图像处理算法控制外围设备。现代的 ISP 内部的 CPU 一般都是 ARM Cortex-A 系列的例如 Cortex-A5、Cortex-A7。SUB IPSUB IP 是各种功能模块的通称对图像进行各自专业的处理。常见的 SUB IP 如 DIS、CSC、VRA 等。图像传输接口图像传输接口主要分两种并口 ITU 和串口 CSI。CSI 是 MIPI CSI 的简称鉴于 MIPI CSI 的诸多优点在手机相机领域已经广泛使用 MIPI-CSI 接口传输图像数据和各种自定义数据。外置 ISP 一般包含 MIPI-CSIS 和 MIPI-CSIM 两个接口。内置 ISP 一般只需要 MIPI-CSIS 接口。通用外围设备通用外围设备指 I2C、SPI、PWM、UART、WATCHDOG 等。ISP 中包含 I2C 控制器用于读取 OTP 信息控制 VCM 等。对于外置 ISPISP 本身还是 I2C 从设备。AP 可以通过 I2C 控制 ISP 的工作模式获取其工作状态等。实现实例TI TMS320DM270ISP算法处理流程3.2 ISP固件lens 将光信号投射到sensor 的感光区域后sensor 经过光电转换将Bayer 格式的原始图像送给ISPISP 经过算法处理输出RGB空间域的图像给后端的视频采集单元。在这个过程中ISP通过运行在其上的firmware固件对ISP逻辑从而对lens 和sensor 进行相应控制进而完成自动光圈、自动曝光、自动白平衡等功能。其中firmware的运转靠视频采集单元的中断驱动。PQ Tools 工具通过网口或者串口完成对ISP 的在线图像质量调节。 ISP 由ISP逻辑及运行在其上的Firmware组成逻辑单元除了完成一部分算法处理外还可以统计出当前图像的实时信息。Firmware 通过获取ISP 逻辑的图像统计信息重新计算反馈控制lens、sensor 和ISP 逻辑以达到自动调节图像质量的目的。ISP 的Firmware包含三部分一部分是ISP 控制单元和基础算法库一部分是AE/AWB/AF 算法库一部分是sensor 库。Firmware 设计的基本思想是单独提供3A算法库由ISP控制单元调度基础算法库和3A 算法库同时sensor 库分别向ISP 基础算法库和3A 算法库注册函数回调以实现差异化的sensor 适配。ISP firmware 架构如图所示。不同的sensor 都以回调函数的形式向ISP 算法库注册控制函数。ISP 控制单元调度基础算法库和3A 算法库时将通过这些回调函数获取初始化参数并控制sensor如调节曝光时间、模拟增益、数字增益控制lens 步进聚焦或旋转光圈等。AP对ISP的操控方式CPU处理器包括AP、BP、CP。 BP基带处理器、AP应用处理器、CP多媒体加速器。这里所说的控制方式是AP 对 ISP 的操控方式 。I2C/SPI这一般是外置 ISP 的做法。SPI 一般用于下载固件、I2C 一般用于寄存器控制。在内核的 ISP 驱动中外置 ISP 一般是实现为 I2C 设备然后封装成 V4L2-SUBDEV。MEM MAP这一般是内置 ISP 的做法。将 ISP 内部的寄存器地址空间映射到内核地址空间MEM SHARE这也是内置 ISP 的做法。AP 这边分配内存然后将内存地址传给 ISP二者实际上共享同一块内存。因此 AP 对这段共享内存的操作会实时反馈到 ISP 端。4. ISP集成入AI SoC在AI SoC芯片中可以说视觉智能是必不可少的特别是汽车和机器人ISP这个IP必然要集成到SoC内部作为一个子系统。另外在AI SoC内部相机的高清数据一般需要高速的MIPI接口进入SoC芯片内部然后ISP就对数据进行处理之后提供给NPU去进行AI计算。所以AI SoC需要集成MIPI或者其他接口的驱动控制器。且相机的数量越多控制器需要集成的越多。4.1 MIPI接口移动产业处理器接口(Mobile Industry ProcessorinterfaceMIPI)常见的智能手机上的摄像头是MIPI接口CSI是相机串行接口CMOS Sensor Interface的简称。MIPI总线速率lvds接口耦合走线必须差分等长并且需要保护故对PCB走线以及阻抗控制要求高一点一般来讲差分阻抗要求在85欧姆~125欧姆之间MIPI是LVDS低压差分串口只需要要CLKP/N、DATAP/N——最大支持4-lane一般2-lane即可。MIPI接口比DVP的接口信号线少由于是低压差分信号产生的干扰小抗干扰能力也强。DVP接口在信号完整性方面受限制速率也受限制。500W还可以勉强用DVP800W及以上都采用MIPI接口。所以高清摄像头我们都选用MIPI接口 。4.2 自动驾驶对ISP的需求ISP作为视觉处理芯片核心其主要功能包括AE自动曝光、AF自动对焦、AWB自动白平衡、去除图像噪声、LSC(Lens Shading Correction)、BPC(Bad PixelCorrection)最后把Raw Data 保存起来传给videocodec 或CV等。通过ISP 可以得到更好的图像效果因此在自动驾驶汽车上对ISP的要求很高比如开始集成双通道甚至三通道的ISP。一般来说ISP 是集成在AP 里面对很多AP 芯片厂商来说这是差异化竞争的关键部分但是随着需求的变化也出现了独立的ISP主要原因是可以更灵活的配置同时弥补及配合AP 芯片内ISP 功能的不足。图像/视频处理单元SOC芯片上的图像处理单元主要包括几个部分功能数字图像信号处理、图像分割Pyramid、图像拼接Stitch、图像渲染GDC以及视频编解码功能。ISP模块接收感光元件Sensor的原始信号数据并处理图像传感器输出的图像信号对图像质量起着非常重要的作用。ISP内部包含多个图像算法处理模块其中主要包含如下几种通过扣暗电流去掉底电流噪声通过线性化解决数据非线性问题解决镜头带来的亮度衰减与颜色变化通过去坏点剔除sensor中坏点数据通过数字图像滤波进行图像去噪通过感光半导体处理将原始环境光源数据转为RGB数据自动白平衡自动对焦自动曝光亮度映射曲线优化局部与整体对比度此外ISP的处理过程还包括如下几个部分即旋转角度变化锐化调整锐度缩放放大缩小色彩空间转换转换到不同色彩空间进处理颜色增强可选调整颜色肤色增强可选优化肤色表现等。图像分割实在神经网络处理逻辑之前进行简单的场景分割将环境中明显可表达的语义进行分别输出。图像拼接是针对有一定overlap的图像进行全场景范围拼接拼接的结果主要用于流媒体显示。此外图像处理单元一版还会额外搭载一些视频编解码核一般可应用HEVC的方式进行编解码。更为强大的图像/视频处理单元会有能力进行3D图像渲染。这一部分可能会用到GPU的相关计算能力。这里需要说明一下的是在我们设计域控制器的时候很多情况下我们选择的SOC芯片是不具备足够的3D渲染能力的这时从整个先进的显示方案需求出发我们就需要采用额外的处理器进行渲染。这里有两种方案其一是采用驾驶域控制器的芯片扩充方案即在自动驾驶域控制器AI芯片外围在增加相应的GPU芯片进行集成两者可通过PCIe进行图像传输。其二是采用座舱域控制器芯片扩充方案即在智能座舱控制器芯片中集成GPU处理能力的芯片直接做渲染和显示。特斯拉的自研模式很有价值可以垂直整合做到更高效的利用软硬件资源来实现更先进的技术和性能而且不受外部很多规范规则限制。摄像头就传感器收集视频画面再进行后续图像分割、物体分类、目标跟踪、世界模型、多传感器融合、在线标定、视觉SLAM、ISP 等一系列步骤进行匹配与深度学习4.3 ISP演进ISP的作用就是把相机看到的失真不好的图片还原成人眼真实看到的清晰的图片这就需要一些算法但是这些算法都是固定的。那能不能利用AI这个武器去让图片变清晰答案是肯定的而且很好用特别针对特殊的例子固定算法直接失效例如忽明忽暗的场景。AI的做法就是把相机看到的图片搞一个图片集进行神经网络训练让跟人眼看到的图片进行标记训练尽量的贴近这不是固定的运算而是根据经验进行局部修复替换全新的思路。甚至手机可以拍照月亮非常清晰因为算法识别到你在拍月亮那直接拿数据库里面一个清晰的月亮给你换上直接搞定。但是有一个问题这里ISP处理的数据要给NPU进行AI运算的自己先用NPU给运算了一下那是不是直接把RAW Data数据给NPU得了把ISP自己革命革没了。当前应该AI算法还不足完成ISP所有的算法或者说直接上AI耗费资源太多有固定的算法先处理下快ISP轻量化而且把进入NPU的数据缩小有利于大规模的AI计算。4.4 视觉AI演进回到之前的问题相机看到的图片和人类看到的图片那个更适合AI神经网络去运算给出判断如果是相机的硬件缺陷那肯定是需要进行弥补的不然信息会造成缺失。如果在同样信息的条件下先转换为人类看的图片再给AI去训练AI其实根本不理解人人类看的图片同样是直接固定的算法去给出判断结果。这点看ISP先转换为人类看的图片完全是多此一举但是这样做的好处就是人类可以去判断监控处理的过程。不然完全是一个黑盒人类也直接看不懂那些二进制表示啊。ISP不直接转换为人类看清的图片那么只用保证信息的完整性很多色彩和平衡的计算都不需要了这样ISP更加的简化也是好处。为了保证信息完整性特别是摄像头有很多缺陷可以多个摄像头一块信息对比叠加就像人有两个眼睛。这就符合AI算法只需要特征把两个或者多个摄像头拍摄的图片叠加特征会更好的保留。参考blog.csdn.net/qq_28258885…blog.csdn.net/u010783226/…zhuanlan.zhihu.com/p/457952229blog.csdn.net/lz0499/arti…zhuanlan.zhihu.com/p/142640955blog.csdn.net/qq_37692302…mp.weixin.qq.com/s/nxKCBf-5x…后记对于非相机研发来说这部分ISP入门知识会挺有趣通过视觉的处理原理可以延伸到人类其他的感官处理也是同样的道理sensor抓取信息转换为电信号再各种算法处理还原人类判断信息正确后给AI进行运算给出智能的判断。“啥都懂一点啥都不精通干啥都能干干啥啥不是专业入门劝退堪称程序员杂家”。欢迎各位有自己公众号的留言申请转载纯干货持续更新欢迎分享给朋友、点赞、收藏、在看、划线和评论交流公众号“那路谈OS与SoC嵌入式软件”欢迎关注个人文章汇总https://thatway1989.github.io

相关文章:

AI系统-20AI芯片ISP视觉系统介绍

人有五感:眼睛、耳朵、鼻子、舌头和皮肤。 这些器官中的专门细胞和组织会接收原始刺激,并将其转化为神经系统可以使用的信号。 神经将信号传递到大脑,大脑将其解释为影像(视觉)、声音(听觉)、气…...

内容解锁工具:突破信息壁垒的智能解决方案

内容解锁工具:突破信息壁垒的智能解决方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在信息爆炸的数字时代,知识获取的不平等现象日益凸显。当研究人员急…...

Scarab:重新定义空洞骑士模组管理体验

Scarab:重新定义空洞骑士模组管理体验 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 在独立游戏模组管理领域,手动复制文件、解决版本冲突和跟踪更新的…...

智能硬件开发实战:用天问Block给ASRPRO芯片添加声控功能(含完整代码)

智能硬件开发实战:用天问Block给ASRPRO芯片实现声控LED系统 在智能家居和玩具开发领域,语音交互正成为最自然的控制方式。传统嵌入式开发需要编写复杂代码,而天问Block的图形化编程让创客们能像搭积木一样快速实现语音控制功能。本文将带你用…...

Nunchaku FLUX.1-dev 文生图技术解析:卷积神经网络在图像生成中的角色

Nunchaku FLUX.1-dev 文生图技术解析:卷积神经网络在图像生成中的角色 最近在尝试各种文生图模型时,Nunchaku FLUX.1-dev 的表现让我印象深刻。它生成的图片不仅细节丰富,而且风格多样,从写实到抽象都能驾驭得很好。这让我不禁好…...

Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box——基于辅助边界框的更有效交并比损失

这篇题为《Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box》的论文,主要研究了目标检测中边界框回归(BBR)损失函数的改进问题。以下是其核心研究内容的全面总结概括: 1. 研究背景与问题 现…...

Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation—面向实时实例分割的锚点分配方法

《广义掩膜感知IoU:面向实时实例分割的锚点分配方法》主要研究并解决实时实例分割任务中锚点分配不准确的问题。其核心创新在于提出了一种新的度量标准——广义掩膜感知交并比,并将其应用于锚点的正负样本分配,从而显著提升了模型的性能与效率…...

Docker Desktop部署Weaviate向量数据库:从配置到生产环境全流程

在Docker Desktop上部署Weaviate向量数据库的全流程。通过Docker Compose实现容器化,涵盖持久化存储、安全认证配置及text2vec-openai集成。提供Python/Java客户端连接示例,并针对端口冲突、数据持久化等常见问题给出实用解决方案,助力快速搭…...

Blender 3MF插件全攻略:提升3D打印工作流效率的关键技术

Blender 3MF插件全攻略:提升3D打印工作流效率的关键技术 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 3MF格式作为3D打印领域的核心交换标准,正…...

LiuJuan Z-Image效果对比展示:BF16 vs FP16在人像细节与稳定性上的差异

1. 1. 1. 1. 1. 1. 1. 1. 1. 概述 1. 1. 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1…...

半方差函数四大参数保姆级解读:从块金值到变程的空间自相关分析

半方差函数四大参数保姆级解读:从块金值到变程的空间自相关分析 刚接触地理统计时,看到"半方差函数"这个术语总让人望而生畏。但当我第一次用气象站数据绘制出那条神奇的曲线时,突然理解了空间数据背后隐藏的对话——就像侦探通过蛛…...

03-CAPL 常用函数大全

专栏:《CAPL 脚本编写实战指南》第 3 篇 作者:一线汽车电子测试工程师 适合人群:已掌握 CAPL 基础的测试人员、想系统学习 CAPL 函数的工程师开篇:为什么要学 CAPL 函数? 这是我刚学 CAPL 时的真实经历。 当时的情况&a…...

Python3.8环境配置全攻略:从零开始搭建你的第一个项目

Python3.8环境配置全攻略:从零开始搭建你的第一个项目 1. 为什么选择Python3.8环境 Python3.8作为Python3系列的一个重要版本,引入了多项新特性,包括海象运算符(:)、位置参数限定符(/)等语法改进,同时在性能上也有显著提升。对于…...

别再死记硬背了!用LangChain的Tool装饰器,5分钟给你的LLM装上‘天气查询’和‘冷知识’插件

5分钟玩转LangChain工具装饰器:零基础打造智能天气与冷知识问答机器人 在AI应用开发领域,让大语言模型(LLM)具备实时获取外部信息的能力一直是开发者关注的焦点。传统方法往往需要复杂的API对接和冗长的代码编写,而Lan…...

终极指南:5分钟上手BepInEx,打造你的Unity游戏插件帝国 [特殊字符]

终极指南:5分钟上手BepInEx,打造你的Unity游戏插件帝国 🚀 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一款专为Unity游戏设计的强…...

如何高效配置Unity插件框架:终极解决方案指南

如何高效配置Unity插件框架:终极解决方案指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一个功能强大的Unity游戏插件框架和模组开发平台,专…...

OpenClaw我的龙虾怎么识别不了图片

问题现象 图片发送给龙虾,要么一直说没收到图片,要么提示不支持,要么提示安装OCR工具,要么就是识别出来的完全牛头不对马嘴。 解决方案 这里面涉及三个因素: 模型是否支撑图片识别配置中的input是否配置了image聊天渠道…...

告别散斑噪声困扰:用PyTorch手把手实现DenoDet的频域去噪模块(附完整代码)

频域魔法:用PyTorch实现SAR图像去噪的工程实践 当你在处理SAR图像时,是否曾被那些恼人的散斑噪声困扰?这些像胡椒粒一样随机分布的噪声点不仅影响视觉效果,更会严重干扰目标检测的准确性。传统方法试图在空间域直接对抗噪声&#…...

OpenClaw 中所有浏览器控制方法总览

OpenClaw 当前支持的浏览器控制方式,本质可以分为 3 种架构路径: Remote CDP(直接协议控制) Managed Browser(托管浏览器) Existing-session via Chrome DevTools MCP(会话接管) …...

5分钟部署清华TurboDiffusion,视频生成加速100倍,小白也能玩转AI视频

5分钟部署清华TurboDiffusion,视频生成加速100倍,小白也能玩转AI视频 1. TurboDiffusion技术背景与核心价值 1.1 技术发展历程 TurboDiffusion是由清华大学等机构联合推出的视频生成加速框架。该框架解决了传统扩散模型在视频生成过程中存在的计算效率…...

Nunchaku FLUX.1-dev多场景实战:游戏原画/产品渲染/艺术创作全覆盖

Nunchaku FLUX.1-dev多场景实战:游戏原画/产品渲染/艺术创作全覆盖 你是不是也遇到过这样的烦恼:想画一张游戏角色概念图,但手绘功底不够;想给产品做个渲染图,3D软件又太复杂;脑子里有绝妙的艺术创意&…...

14届蓝桥杯省赛Java A 组Q4~Q5

题目链接: Q4 蓝桥云课:棋盘 洛谷:P13879 [蓝桥杯 2023 省 Java A] 棋盘 Q5 蓝桥云课:互质数的个数 洛谷:P13880 [蓝桥杯 2023 省 Java A] 互质数的个数 算法原理: Q4解法:前缀和差分 时间…...

3步颠覆传统下载体验:百度网盘直链解析工具让你告别会员枷锁

3步颠覆传统下载体验:百度网盘直链解析工具让你告别会员枷锁 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 从200KB/s到5MB/s的蜕变 你是否也曾遇到这样的困境&a…...

百度网盘直链解析技术全解析:从原理到实践的开源解决方案

百度网盘直链解析技术全解析:从原理到实践的开源解决方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 1. 问题本质:云存储限速的技术困局 1.1 限速…...

2000kn四柱式通用液压机设计【说明书 CAD图纸 开题报告】

2000kN四柱式通用液压机作为工业领域中重要的压力加工设备,其核心作用在于通过液压系统传递压力,实现对金属或非金属材料的冲压、拉伸、弯曲及成型等工艺。该设备采用四柱式框架结构,通过上下横梁与四根立柱构成刚性闭合框架,确保…...

Dify工作流集成StructBERT:构建自定义文本智能处理应用

Dify工作流集成StructBERT:构建自定义文本智能处理应用 最近在做一个智能客服系统的升级项目,客户那边提了个挺实际的需求:每天有大量工单进来,希望系统能先自动判断一下问题类型,比如是“账号问题”、“支付故障”还…...

Z-Image-GGUF在软件测试中的应用:自动化生成测试用例示意图

Z-Image-GGUF在软件测试中的应用:自动化生成测试用例示意图 你是不是也遇到过这样的场景?写测试用例文档时,为了描述一个复杂的用户操作流程,绞尽脑汁写了半天文字,结果评审时,开发同事还是没完全看懂&…...

Uncertainty-Aware Pixel-Level Contrastive Learning for Enhanced Semi-Supervised Medical Image Segmen

1. 医学图像分割的挑战与半监督学习机遇 医学图像分割一直是计算机视觉领域的重要研究方向,它能够帮助医生快速定位病灶区域,提高诊断效率。但在实际应用中,我们常常面临标注数据稀缺的问题——专业医生标注一张CT或MRI图像可能需要数小时&am…...

LangChain详解:大模型应用开发框架(通俗理解+专业解析+Python实战)

LangChain详解:大模型应用开发框架(通俗理解专业解析Python实战) 摘要:随着大语言模型(LLM)的普及,单纯调用模型API已无法满足复杂业务需求——如何让大模型“记住”对话历史、“调用”外部工具…...

Leaflet坐标系实战:从设置到动态切换的完整指南

1. Leaflet坐标系基础概念解析 第一次接触Leaflet坐标系时,我也被各种专业术语搞得晕头转向。简单来说,坐标系就是用来确定地图上每个点位置的规则系统。就像我们在地球上使用经纬度定位一样,数字地图也需要明确的坐标参考。 Leaflet默认支持…...