当前位置：首页 > news >正文

深度探究深度学习常见数据类型INT8 FP32 FP16的区别即优缺点

news 2026/2/8 17:26:08

定点和浮点都是数值的表示（representation），它们区别在于，将整数（integer）部分和小数（fractional）部分分开的点，点在哪里。定点保留特定位数整数和小数，而浮点保留特定位数的有效数字（significand）和指数（exponent）。

1.FP与INT

FP代表浮点运算数据格式，包括双精度FP64 单精度FP32 半精度FP16和FP8

INT代表整数数据格式，包括INT8和INT4

后面的数字越高意味着精度越高能够支持的运算复杂度也就越高适配场景也就越广，同样对推理端的计算资源要求也就越高；

2.FP64、FP32、FP8 和INT8、INT4

双精度FP64 :浮点数使用64位表示，提供更好的精度和动态范围。通常应用在高精度计算的场景中，对存储空间以及计算资源要求较多通常较少使用

单精度FP32：浮点数使用32位表示，适用于大多数科学计算和通用计算任务。通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32

半精度FP16：浮点数使用16位表示。相对于FP32提供了较低的精度,按照理论来说可以跑机器学习这些任务，但是FP16会出现精度溢出和舍入误差，所以很多应用都是使用混合精度计算的也就是FP16+FP32模式

浮点数在高精度图像处理有较大优势能够使图片中更多颜色、对比度、质感和清晰度得以保留。

但INT类型速度更快

第一部分为 sign 符号位 s，占 1 bit，用来表示正负号；
第二部分为 exponent 指数偏移值 k，占 5 bits，用来表示其是 2 的多少次幂；
第三部分是 fraction 分数值（有效数字） M，占 10 bits，用来表示该浮点数的数值大小。

固定点数INT8：固定点数使用固定的小数点位置来表示数值，可以使用定点数算法进行计算。相对于浮点数计算，算力和内存资源要求更低。

深度探究深度学习常见数据类型INT8 FP32 FP16的区别即优缺点

1.FP与INT

2.FP64、FP32、FP8 和INT8、INT4

相关文章：

深度探究深度学习常见数据类型INT8 FP32 FP16的区别即优缺点

C++——const成员

使用阿里云服务器学习Docker

通信原理板块——线性分组码之汉明码

Hive 常用存储、压缩格式

搞懂它，就可以把结构体玩活了~

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(四)

dcat admin 各种问题

数据结构与算法（二）动态规划（Java）

颜值实力“C位出道”：起亚EV6综合实力究竟怎么样？

继承和多态_Java零基础手把手保姆级教程（超详细）

AI：85-基于深度学习的自然场景生成与渲染

Windows电脑训练 RT-DETR 改进算法 (Ultralytics) 教程，改进RTDETR算法（包括使用训练、验证、推理教程）

flask框架报错解决方法

Ubuntu18.04 安装docker教程

深入理解Git

Leetcode_203.移除链表元素—C语言

虹科方案 | 汽车电子电气架构设计仿真解决方案

Java6种单例模式写法

Direct3D拾取

微信小程序之bind和catch

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

Java 8 Stream API 入门到实践详解

Psychopy音频的使用

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

站群服务器的应用场景都有哪些？

LRU 缓存机制详解与实现（Java版） + 力扣解决

Tauri2学习笔记

高端性能封装正在突破性能壁垒，其芯片集成技术助力人工智能革命。