当前位置：首页 > news >正文

【深度学习】MNN ImageProcess处理图像顺序，逻辑，均值，方差

news 2026/2/11 2:28:22

文章目录

介绍
Opencv numpy
等效的MNN处理

介绍

MNN ImageProcess处理图像是先reisze还是后resize，均值方差怎么处理，是什么通道顺序？这篇文章告诉你答案。

Opencv numpy

这段代码是一个图像预处理函数，用于对输入的图像进行一系列处理，以便将其用于某些机器学习模型的输入。

cv2.imdecode(np.fromfile(imgpath, dtype=np.uint8), 1)：这行代码从文件中读取图像数据，并使用OpenCV库中的imdecode函数将其解码为图像矩阵。参数1表示图像应该按原样解码，即不进行颜色转换或通道重新排序。
cv2.resize(img, (224, 224), interpolation=cv2.INTER_LINEAR)：接下来，将图像调整大小为 (224, 224)，这是因为一些深度学习模型（如AlexNet、VGG等）需要固定大小的输入图像。
img = img.astype(np.float32)：将图像数据类型转换为 32 位浮点数，通常这是深度学习模型期望的输入类型。
img = img[..., ::-1]：颜色通道顺序调整，将图像从 BGR 格式转换为 RGB 格式。
img_norm_cfg：定义了图像的归一化参数，包括均值和标准差。这些参数用于将图像像素值标准化到一个较小的范围，以便模型更好地处理图像数据。
img -= img_norm_cfg['mean']：对图像进行均值归一化。
img *= img_norm_cfg['std']：对图像进行标准差归一化。
img = img.transpose((2, 0, 1))：调整图像的维度顺序，将通道维度置于第一个位置。
img = np.expand_dims(img, axis=0)：在图像的第一个维度（批处理维度）上添加一个维度，使其成为形状为 (1, C, H, W) 的批量图像数据，其中 C 是通道数，H 和 W 是图像的高度和宽度。

最终，函数返回预处理后的图像数据，可以直接用于输入深度学习模型进行训练或推断。

    def preprocess(self, imgpath: str):img = cv2.imdecode(np.fromfile(imgpath, dtype=np.uint8), 1)  # img是矩阵if img is None:raise Exception("image is None:" + imgpath)img = cv2.resize(img, (224, 224), interpolation=cv2.INTER_LINEAR)img = img.astype(np.float32)img = img[..., ::-1]img_norm_cfg = dict(mean=[103.53, 116.28, 123.675],std=[0.01712, 0.01750, 0.01742])img -= img_norm_cfg['mean']img *= img_norm_cfg['std']img = img.transpose((2, 0, 1))img = np.expand_dims(img, axis=0)return img

等效的MNN处理

下面是一个等效的MNN处理：

// 获取模型和会话
ModelData GetDetModel(const char* model_file_name) {using namespace MNN;ModelData modelData;// MNNstd::shared_ptr<Interpreter> interpreter(Interpreter::createFromFile(model_file_name));ScheduleConfig config_s;config_s.type = MNN_FORWARD_AUTO;Session* mSession = interpreter->createSession(config_s);Tensor* mInputTensor = interpreter->getSessionInput(mSession, NULL);Tensor* mOutputTensor = interpreter->getSessionOutput(mSession, NULL);// 输入处理，形成一个mnn张量// dst = (img - mean) * normalMNN::CV::ImageProcess::Config config;config.destFormat = MNN::CV::ImageFormat::RGB;config.sourceFormat = MNN::CV::ImageFormat::BGR;float mean_[4] = {103.53f, 116.28f, 123.675f, 0.0f};memcpy(config.mean, mean_, 4 * sizeof(float));float normal_[4] = {0.01712f, 0.01750f, 0.01742f, 0.0f};memcpy(config.normal, normal_, 4 * sizeof(float));config.filterType = MNN::CV::NEAREST;config.wrap = MNN::CV::ZERO;std::shared_ptr<MNN::CV::ImageProcess> image_process(MNN::CV::ImageProcess::create(config));//    MNN::CV::Matrix transform;//    image_process->setMatrix(transform);modelData.interpreter = interpreter;modelData.session = mSession;modelData.mInputTensor = mInputTensor;modelData.mOutputTensor = mOutputTensor;modelData.image_process = image_process;return modelData;
}// 释放资源
void ReleaseDetModel(ModelData& modelData) {using namespace MNN;auto interpreter = modelData.interpreter;auto mSession = modelData.session;auto mInputTensor = modelData.mInputTensor;auto mOutputTensor = modelData.mOutputTensor;auto image_process = modelData.image_process;interpreter->releaseModel();interpreter->releaseSession(mSession);
}std::vector<float> RunDetModel(ModelData& modelData,  // 模型和会话cv::Mat& img_bgr)      // 图片 opencv mat
{using namespace MNN;auto interpreter = modelData.interpreter;auto mSession = modelData.session;auto mInputTensor = modelData.mInputTensor;auto mOutputTensor = modelData.mOutputTensor;auto image_process = modelData.image_process;cv::Mat srcimgx;srcimgx = img_bgr.clone();cv::resize(srcimgx, srcimgx, cv::Size(224, 224), 0, 0, cv::INTER_LINEAR);int img_resize_height = srcimgx.rows;int img_resize_width = srcimgx.cols;// resizeSession//    interpreter->resizeTensor(mInputTensor, {1, 3, img_resize_height, img_resize_width});//    interpreter->resizeSession(mSession);// 输入处理，形成一个mnn张量std::vector<int> shape = {1, 3, img_resize_height, img_resize_width};std::shared_ptr<MNN::Tensor> input_tensor(MNN::Tensor::create<float>(shape, nullptr, MNN::Tensor::CAFFE));image_process->convert(srcimgx.data, img_resize_width, img_resize_height, 0, input_tensor.get());// 给入mInputTensormInputTensor->copyFromHostTensor(input_tensor.get());// Run mSessioninterpreter->runSession(mSession);// Get outputauto nchwTensorOt = new Tensor(mOutputTensor, Tensor::CAFFE);// 拷贝出去mOutputTensor->copyToHostTensor(nchwTensorOt);// 使用auto type = nchwTensorOt->getType();auto size = nchwTensorOt->elementSize();std::vector<int> shape_out = nchwTensorOt->shape();// values 输出形状是 img_fp_height, img_fp_width，直接给到cv::Matauto values = nchwTensorOt->host<float>();// log values sizestd::vector<float> outimg(values, values + size);delete nchwTensorOt;return outimg;
}

【深度学习】MNN ImageProcess处理图像顺序，逻辑，均值，方差

文章目录介绍Opencv numpy等效的MNN处理介绍 MNN ImageProcess处理图像是先reisze还是后resize，均值方差怎么处理，是什么通道顺序？这篇文章告诉你答案。 Opencv numpy 这段代码是一个图像预处理函数，用于对输入的图像进行一系…...

编程日记 2024/1/31 7:41:19

代码随想录算法训练营29期Day35|LeetCode 860,406,452

文档讲解：柠檬水找零根据身高重建队列用最小数量的箭引爆气球 860.柠檬水找零题目链接：https://leetcode.cn/problems/lemonade-change/description/ 思路： 很简单，模拟即可。统计五美元、十美元和十五美元的个数。给五美元…...

编程日记 2024/1/31 7:39:17

20240130金融读报1分钟小得01

1、开放银行本质上是以用户需求为核心，以场景服务为切入点的共享平台金融模式，一定程度上加快了商业银行“隐形”和金融服务的无缝和泛在 2、利用自身优势进行差异化竞争，比如农信的客户面对面交流、全方位覆盖、政银紧密合作。针对劣势进行互…...

编程日记 2024/1/31 7:36:13

刷力扣题过程中发现的不熟的函数

C中不熟的函数 1.memset() 头文件：<string.h> void *memset(void *s,int c,unsigned long n); 为指针变量s所指的前n个字节的内存单元填充给定的int型数值c 如： int a[10]; memset(a,0,sizeof(a)); //将数组a中的数全部赋值为02.sort() &#…...

编程日记 2024/1/31 7:34:12

native2ascii命令详解

native2ascii命令详解大家好，我是免费搭建查券返利机器人赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入研究一个在Java开发中常用的命令——native2ascii，解析…...

编程日记 2024/1/31 7:32:10

什么是Vue Vue入门案例

一、什么是Vue 概念：Vue (读音 /vjuː/，类似于 view) 是一套构建用户界面的渐进式框架 Vue2官网：Vue.js 1.什么是构建用户界面基于数据渲染出用户可以看到的界面 2.什么是渐进式所谓渐进式就是循序渐进，不一定非得把V…...

编程日记 2024/1/31 7:30:08

【C/Python】GtkApplicationWindow

一、C语言 GtkApplicationWindow 是 GTK 库中用于创建应用程序主窗口的一个控件。首先，需要确保环境安装了GTK开发库。然后，以下是一个简单的使用 GtkApplicationWindow 创建一个 GTK 应用程序的示例： #include <gtk/gtk.h>static …...

编程日记 2024/1/31 7:28:05

1.说明关于EnableTransactionManagement注解，可加可不加，加注解保证规范性。 2.核心代码 /** * author: wangning * date: 2024/1/23 16:19 */ Aspect Configuration ConditionalOnClass({TransactionManager.class, TransactionFactory.class}) pub…...

编程日记 2024/1/31 7:26:03

【FINEBI】finebi中常用图表类型及其适用场景

柱状图（Bar Chart）： 比较不同类别或组之间的数量差异：柱状图可以用于比较不同产品、地区、时间段等的销售额、市场份额等。显示不同时间段的数据变化：通过绘制柱状图，可以观察到销售额、网站流量等随时间…...

编程日记 2024/1/31 7:25:03

Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

文章目录【文章系列】【前言】【比赛简介】【正文】（一）数据获取（二）数据分析1. 缺失值2. 重复值3. 属性类型分析4. 类别分析5. 分析目标数值占比 （三）属性分析1. 对年龄Age分析（1）…...

编程日记 2024/1/31 7:23:00

Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

笔记地址：https://flowus.cn/share/a79f6286-b48f-42be-8425-2b5d0880c648 【FlowUs 息流】tortoise 论文地址： Better speech synthesis through scaling Abstract: 自回归变换器和DDPM：自回归变换器（autoregressive transfo…...

编程日记 2024/1/31 7:19:57

单元测试工具JEST入门——纯函数的测试

单元测试工具JEST入门——纯函数的测试什么是测试❓🙉 我只是开发而已？常见单元测试工具 🔧jest的使用👀 首先你得知道一个简单的例子🌰😨 Oops！出现了一些问题👏 高效的持续监听&a…...

编程日记 2024/1/31 7:15:53

Elasticsearch Windows版安装配置

Elasticsearch简介 Elasticsearch是一个开源的搜索文献的引擎，大概含义就是你通过Rest请求告诉它关键字，他给你返回对应的内容，就这么简单。 Elasticsearch封装了Lucene，Lucene是apache软件基金会一个开放源代码的全文检索引擎工…...

编程日记 2024/1/31 7:14:52

安装 vant-ui 实现底部导航栏 Tabbar

本例子使用vue3 介绍 vant-ui 地址：介绍 - Vant 4 (vant-ui.github.io) Vant 是一个轻量、可定制的移动端组件库安装通过 npm 安装： # Vue 3 项目，安装最新版 Vant npm i vant # Vue 2 项目，安装 Vant 2 npm i vantlatest-v…...

编程日记 2024/1/31 7:09:48

GitHub国内打不开（解决办法有效）

最近国内访问github.com经常打不开，无法访问。 github网站打不开的解决方法 1.打开网站http://tool.chinaz.com/dns/ ，在A类型的查询中输入 github.com，找出最快的IP地址。 2.修改hosts文件。在hosts文件中添加： # localhost n…...

编程日记 2024/1/31 7:06:45

Unity之第一人称角色控制

目录第一人称角色控制 😴1、准备工作 📺2、鼠标控制摄像机视角 🎮3、角色控制 😃4.杂谈第一人称角色控制专栏Unity之动画和角色控制-CSDN博客的这一篇也有讲到角色控制器，是第三人称视角的，以小编…...

编程日记 2024/1/31 7:05:44

23种设计模式-结构型模式

1.代理模式在软件开发中,由于一些原因,客户端不想或不能直接访问一个对象,此时可以通过一个称为"代理"的第三者来实现间接访问.该方案对应的设计模式被称为代理模式. 代理模式(Proxy Design Pattern ) 原始定义是：让你能够提供对象的替代品或其占位符。…...

编程日记 2024/1/31 7:03:42

python -- 流程控制

1、if控制语句：语法格式： age 20 if age > 18:print("我不是小孩子") elif age < 18:print("你永远都是小孩子") else:print("你永远都是小孩子") 2、while循环语句：语法格式： age1 30 …...

编程日记 2024/1/31 7:02:41

Centos 7.9 在线安装 VirtualBox 7.0

1 访问 Linux_Downloads – Oracle VM VirtualBox 2 点击 the Oracle Linux repo file 复制内容到 /etc/yum.repos.d/. 3 在 /etc/yum.repos.d/ 目录下新建 virtualbox.repo，复制内容到 virtualbox.repo 并 :wq 保存。 [rootlocalhost centos]# cd /etc/yum.rep…...

编程日记 2024/1/31 6:56:36

mysql之基本查询

基本查询一、SELECT 查询语句一、SELECT 查询语句查询所有列 1 SELECT *FORM emp;查询指定字段 SELECT empno,ename,job FROM emp;给字段取别名 SELECT empno 员工编号 FROM emp; SELECT empno 员工编号,ename 姓名,job 岗位 FROM emp; SELECT empno AS 员工编号,ename …...

编程日记 2024/1/31 6:55:35

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

一、多模态商品数据接口的技术架构 （一）多模态数据融合引擎跨模态语义对齐通过Transformer架构实现图像、语音、文字的语义关联。例如，当用户上传一张“蓝色连衣裙”的图片时，接口可自动提取图像中的颜色（RGB值&…...

编程新知 2025/7/23 3:55:49

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2026/2/4 18:09:49

AI病理诊断七剑下天山，医疗未来触手可及

一、病理诊断困局：刀尖上的医学艺术 1.1 金标准背后的隐痛病理诊断被誉为"诊断的诊断"，医生需通过显微镜观察组织切片，在细胞迷宫中捕捉癌变信号。某省病理质控报告显示，基层医院误诊率达12%-15%，专家会诊…...

编程新知 2026/2/6 20:53:34

智能AI电话机器人系统的识别能力现状与发展水平

一、引言随着人工智能技术的飞速发展，AI电话机器人系统已经从简单的自动应答工具演变为具备复杂交互能力的智能助手。这类系统结合了语音识别、自然语言处理、情感计算和机器学习等多项前沿技术，在客户服务、营销推广、信息查询等领域发挥着越来越重要…...

编程新知 2025/6/11 3:05:02

基于Java+MySQL实现（GUI）客户管理系统

客户资料管理系统的设计与实现第一章需求分析 1.1 需求总体介绍本项目为了方便维护客户信息为了方便维护客户信息，对客户进行统一管理，可以把所有客户信息录入系统，进行维护和统计功能。可通过文件的方式保存相关录入数据，对…...

编程新知 2026/1/25 10:12:06

音视频——I2S 协议详解

I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议，专门用于在数字音频设备之间传输数字音频数据。它由飞利浦（Philips）公司开发，以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

编程新知 2026/2/1 2:08:53

LabVIEW双光子成像系统技术

双光子成像技术的核心特性双光子成像通过双低能量光子协同激发机制，展现出显著的技术优势： 深层组织穿透能力：适用于活体组织深度成像高分辨率观测性能：满足微观结构的精细研究需求低光毒性特点：减少对样本的损伤…...

编程新知 2026/1/31 13:04:44

给网站添加live2d看板娘

给网站添加live2d看板娘参考文献： stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言网站环境如下，文章也主…...

编程新知 2026/2/1 4:23:19

【HarmonyOS 5】鸿蒙中Stage模型与FA模型详解

一、前言在HarmonyOS 5的应用开发模型中，featureAbility是旧版FA模型（Feature Ability）的用法，Stage模型已采用全新的应用架构，推荐使用组件化的上下文获取方式，而非依赖featureAbility。 FA大概是API7之…...

编程新知 2025/10/9 0:45:56

高端性能封装正在突破性能壁垒，其芯片集成技术助力人工智能革命。

2024 年，高端封装市场规模为 80 亿美元，预计到 2030 年将超过 280 亿美元，2024-2030 年复合年增长率为 23%。细分到各个终端市场，最大的高端性能封装市场是“电信和基础设施”，2024 年该市场创造了超过 67% 的收入。…...

编程新知 2026/2/1 21:56:22

【深度学习】MNN ImageProcess处理图像顺序，逻辑，均值，方差

文章目录

介绍

Opencv numpy

等效的MNN处理

相关文章：

【深度学习】MNN ImageProcess处理图像顺序，逻辑，均值，方差

代码随想录算法训练营29期Day35|LeetCode 860,406,452

20240130金融读报1分钟小得01

刷力扣题过程中发现的不熟的函数

native2ascii命令详解

什么是Vue Vue入门案例

【C/Python】GtkApplicationWindow

SpringBoot自定义全局事务

【FINEBI】finebi中常用图表类型及其适用场景

Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

单元测试工具JEST入门——纯函数的测试

Elasticsearch Windows版安装配置

安装 vant-ui 实现底部导航栏 Tabbar

GitHub国内打不开（解决办法有效）

Unity之第一人称角色控制

23种设计模式-结构型模式

python -- 流程控制

Centos 7.9 在线安装 VirtualBox 7.0

mysql之基本查询

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

如何理解 IP 数据报中的 TTL？

AI病理诊断七剑下天山，医疗未来触手可及

智能AI电话机器人系统的识别能力现状与发展水平

基于Java+MySQL实现（GUI）客户管理系统

音视频——I2S 协议详解

LabVIEW双光子成像系统技术

给网站添加live2d看板娘

【HarmonyOS 5】鸿蒙中Stage模型与FA模型详解

高端性能封装正在突破性能壁垒，其芯片集成技术助力人工智能革命。