【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV3模型部署
【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV3模型部署
提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论
文章目录
- 【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV3模型部署
- 前言
- Windows平台搭建依赖环境
- 模型转换--pytorch转onnx
- ONNXRuntime推理代码
- YOLOV3前后处理代码
- 完整推理代码
- 总结
前言
本期将讲解深度学习目标检查网络YOLOV3模型的部署,对于该算法的基础知识,可以参考其他博主博文。
读者可以通过学习【OnnxRuntime部署】系列学习文章目录的C++篇* 的内容,系统的学习OnnxRuntime部署不同任务的onnx模型。
Windows平台搭建依赖环境
在【入门基础篇】中详细的介绍了onnxruntime环境的搭建以及ONNXRuntime推理核心流程代码,不再重复赘述。
模型转换–pytorch转onnx
本博文将通过Ultralytics–YOLOv3算法的人脸检测项目【参考博文:Windows11下YOLOV3人脸目标检测】,简要介绍YOLOV3模型部署。
在博文Windows11下YOLOV3人脸目标检测项目中已经通过以下命令导出了onnx模型:
python export.py --weights runs/train/exp/weights/best.pt --include onnx

【yolov3-face.onnx百度云链接,提取码:zd6a 】直接下载使用即可。
ONNXRuntime推理代码
YOLOV3前后处理代码
1.利用可视化工具查看onnx模型结构: 为了直观地看到整个神经网络的架构,包括各个层(如卷积层、全连接层等)及其连接方式,需要通过可视化工具展示,Netron是一个开源的可视化工具【在线工具】,支持包括ONNX在内的多种深度学习模型格式。它提供了一个交互式的用户界面,可以展示模型的层次结构、参数细节等。
将onnx模型上传到在线Netron可视化工具:

简单说明下四个输出分别代表的含义:
第一个输出:1代表batchsize;25200代表检测框的个数;6代表框的详细信息:即框中心点xy+框宽高hw+框置信度conf+框分类个数(这里是1)。
第二(三/四)个输出:1代表batchsize;3代表着当前网络层输出的特征图每个像素包含的框的个数;,80和80代表特征图的分辨率;6代表框的详细信息。
2.获取模型输出信息: YOLOV3模型是单输入多输出的模型,输入信息的获取方式和之前讲解的图像分类的保持一致,这里重点讲解下多输出信息的获取方式。 YOLOV3模型通常只需要获取第一个输出信息,这里博主分别保存了每个输出的信息,为未来处理其他多输入/输出时模型候提供参考。
// 获取模型输出信息
std::vector<int> nums;
std::vector<int> nbs;
std::vector<int> ncs;
std::vector<int> ncs1;
std::vector<int> ncs2;
for (int i = 0; i < output_nodes_num; i++) {// 获得输出节点的名称并存储auto output_name = session_.GetOutputNameAllocated(i, allocator);output_node_names.push_back(output_name.get());// 显示输出结果的形状auto outShapeInfo = session_.GetOutputTypeInfo(i).GetTensorTypeAndShapeInfo().GetShape();nums.push_back(outShapeInfo[0]);nbs.push_back(outShapeInfo[1]);ncs.push_back(outShapeInfo[2]);if (outShapeInfo.size()>3) {ncs1.push_back(outShapeInfo[3]);ncs2.push_back(outShapeInfo[4]);std::cout << output_node_names[i].c_str() << " format: " << nums[i] << "x" << nbs[i] << "x" << ncs[i] << "x" << ncs1[i] << "x" << ncs2[i] << std::endl;}else {ncs1.push_back(0);ncs2.push_back(0);std::cout << output_node_names[i].c_str() << " format: " << nums[i] << "x" << nbs[i] << "x" << ncs[i] << std::endl;}
3.输入数据预处理: 输入预处理基本流程和此前的图像分类的类似,只是在YOLO系列中不需要考虑方差,因为rgb通道调整、归一化、图像缩放等可以直接通过 cv::dnn::blobFromImage函数完成。
// ******************* 5.输入数据预处理 *******************// 原始图像的宽高int w = frame.cols;int h = frame.rows;// 原始图像与输入图像之间的缩放系数float x_factor = 0.0;float y_factor = 0.0;// 获得原始图像中宽高中的长边,最为变换正方形的边长int _max = std::max(h, w); // 将原始的矩形图像放大变换成正方形图像,默认补零cv::Mat image = cv::Mat::zeros(cv::Size(_max, _max), CV_8UC3);cv::Rect roi(0, 0, w, h);frame.copyTo(image(roi));// 计算宽高的缩放系数,模型的输入恒定为640×640,必须强制转换成浮点数x_factor = image.cols / static_cast<float>(640); y_factor = image.rows / static_cast<float>(640);// 完成归一化:1.0 / 255.0;缩放:cv::Size(input_w, input_h);格式转换(BGR转RGB):truecv::Mat blob = cv::dnn::blobFromImage(image, 1.0 / 255.0, cv::Size(input_w, input_h), cv::Scalar(0, 0, 0), true, false);std::cout << blob.size[0] << "x" << blob.size[1] << "x" << blob.size[2] << "x" << blob.size[3] << std::endl;// ********************************************************
这里需要注意一点,通常预测图像都不是规则的正方形尺寸,但是博主的yolov3版本是640×640的规则输入,因为宽高进行等比缩放(resize)操作或者宽高单独进行粗暴的缩放操作都可能会影响模型的预测,因此需要先将预测图像补零扩展变成规则的规则输入,再进行缩放操作。
4.后处理推理结果: YOLOV3输出得到的目标框个数为25200(通常是固定的),通过置信度得分和分类得分筛选出有目标的目标框,在通过NMS剔除针对同一目标重复多余的目标框。
// ******************* 8.后处理推理结果 *******************// 1x25200x6 获取(第一个)输出数据并包装成一个cv::Mat对象,为了方便后处理const float* pdata = ort_outputs[0].GetTensorMutableData<float>();cv::Mat det_output(nbs[0], ncs[0], CV_32F, (float*)pdata);std::vector<cv::Rect> boxes; // 目标框的坐标位置std::vector<float> confidences; // 目标框的置信度std::vector<int> classIds; // 目标框的类别得分// 剔除置信度较低的目标框,不作处理for (int i = 0; i < det_output.rows; i++) {float confidence = det_output.at<float>(i, 4);if (confidence < 0.45) {continue;}// 获得当前目标框的类别得分cv::Mat classes_scores = det_output.row(i).colRange(5, ncs[0]);// 这里与图像分类的方式一致cv::Point classIdPoint; // 用于存储分类中的得分最大值索引(坐标)double score; // 用于存储分类中的得分最大值minMaxLoc(classes_scores, 0, &score, 0, &classIdPoint);// 处理分类得分较高的目标框if (score > 0.25){ // 计算在原始图像上,目标框的左上角坐标和宽高// 在输入图像上目标框的中心点坐标和宽高float cx = det_output.at<float>(i, 0); float cy = det_output.at<float>(i, 1);float ow = det_output.at<float>(i, 2);float oh = det_output.at<float>(i, 3);//原始图像上目标框的左上角坐标int x = static_cast<int>((cx - 0.5 * ow) * x_factor); int y = static_cast<int>((cy - 0.5 * oh) * y_factor);//原始图像上目标框的宽高int width = static_cast<int>(ow * x_factor);int height = static_cast<int>(oh * y_factor);// 记录目标框信息cv::Rect box;box.x = x;box.y = y;box.width = width;box.height = height;boxes.push_back(box);classIds.push_back(classIdPoint.x);confidences.push_back(score);}}// NMS:非极大值抑制(Non-Maximum Suppression),剔除针对同一目标重复多余的目标框std::vector<int> indexes; // 剔除多余目标框后,保留的目标框的序号cv::dnn::NMSBoxes(boxes, confidences, 0.25, 0.45, indexes);// 遍历筛选出的目标框for (size_t i = 0; i < indexes.size(); i++) {int idx = indexes[i]; // 获取当前目标框序号int cid = classIds[idx]; // 获取目标框分类得分// 输入/输出图像:frame;目标位置信息:boxes[idx];目标框颜色: cv::Scalar(0, 0, 255);// 边框线的厚度:4;线条类型:8;坐标点小数位数精度:0(通常为0)cv::rectangle(frame, boxes[idx], cv::Scalar(0, 0, 255), 4, 8, 0); // 在原始图片上框选目标区域// 输入/输出图像:frame;绘制文本内容:labels[cid].c_str();文本起始位置(左下角):boxes[idx].tl();// 字体类型:cv::FONT_HERSHEY_PLAIN;字体大小缩放比例:2.5;文本颜色:cv::Scalar(255, 0, 0);文本线条的厚度:3;线条类型:8putText(frame, labels[cid].c_str(), boxes[idx].tl(), cv::FONT_HERSHEY_PLAIN, 2.5, cv::Scalar(255, 0, 0), 3, 8); // 目标区域的类别}// ********************************************************
完整推理代码
需要配置face_classes.txt文件存储人脸的分类标签,并将其放置到工程目录下(推荐)。
face
这里需要将yolov3-face.onnx放置到工程目录下(推荐),并且将以下推理代码拷贝到新建的cpp文件中,并执行查看结果。
#include "onnxruntime_cxx_api.h"
#include "cpu_provider_factory.h"
#include <opencv2/opencv.hpp>
#include <fstream>// 加载标签文件获得分类标签
std::string labels_txt_file = "./face_classes.txt";
std::vector<std::string> readClassNames();
std::vector<std::string> readClassNames()
{std::vector<std::string> classNames;std::ifstream fp(labels_txt_file);if (!fp.is_open()){printf("could not open file...\n");exit(-1);}std::string name;while (!fp.eof()){std::getline(fp, name);if (name.length())classNames.push_back(name);}fp.close();return classNames;
}int main(int argc, char** argv) {// 预测的目标标签数std::vector<std::string> labels = readClassNames();// 测试图片cv::Mat frame = cv::imread("./zidane.jpg");cv::imshow("输入图", frame);// ******************* 1.初始化ONNXRuntime环境 *******************Ort::Env env = Ort::Env(ORT_LOGGING_LEVEL_ERROR, "YOLOV3-onnx");// ***************************************************************// ******************* 2.设置会话选项 *******************// 创建会话Ort::SessionOptions session_options;// 优化器级别:基本的图优化级别session_options.SetGraphOptimizationLevel(ORT_ENABLE_BASIC);// 线程数:4session_options.SetIntraOpNumThreads(4);// 设备使用优先使用GPU而是才是CPUstd::cout << "onnxruntime inference try to use GPU Device" << std::endl;OrtSessionOptionsAppendExecutionProvider_CUDA(session_options, 0);OrtSessionOptionsAppendExecutionProvider_CPU(session_options, 1);// ******************************************************// ******************* 3.加载模型并创建会话 *******************// onnx训练模型文件std::string onnxpath = "./yolov3-face.onnx";std::wstring modelPath = std::wstring(onnxpath.begin(), onnxpath.end());Ort::Session session_(env, modelPath.c_str(), session_options);// ************************************************************// ******************* 4.获取模型输入输出信息 *******************int input_nodes_num = session_.GetInputCount(); // 输入节点输int output_nodes_num = session_.GetOutputCount(); // 输出节点数std::vector<std::string> input_node_names; // 输入节点名称std::vector<std::string> output_node_names; // 输出节点名称Ort::AllocatorWithDefaultOptions allocator; // 创建默认配置的分配器实例,用来分配和释放内存 // 输入图像尺寸int input_h = 0;int input_w = 0;// 获取模型输入信息for (int i = 0; i < input_nodes_num; i++) {// 获得输入节点的名称并存储auto input_name = session_.GetInputNameAllocated(i, allocator);input_node_names.push_back(input_name.get());// 显示输入图像的形状auto inputShapeInfo = session_.GetInputTypeInfo(i).GetTensorTypeAndShapeInfo().GetShape();int ch = inputShapeInfo[1];input_h = inputShapeInfo[2];input_w = inputShapeInfo[3];std::cout << "input format: " << ch << "x" << input_h << "x" << input_w << std::endl;}// 获取模型输出信息std::vector<int> nums;std::vector<int> nbs; std::vector<int> ncs;std::vector<int> ncs1;std::vector<int> ncs2;for (int i = 0; i < output_nodes_num; i++) {// 获得输出节点的名称并存储auto output_name = session_.GetOutputNameAllocated(i, allocator);output_node_names.push_back(output_name.get());// 显示输出结果的形状auto outShapeInfo = session_.GetOutputTypeInfo(i).GetTensorTypeAndShapeInfo().GetShape();nums.push_back(outShapeInfo[0]);nbs.push_back(outShapeInfo[1]);ncs.push_back(outShapeInfo[2]);if (outShapeInfo.size()>3) {ncs1.push_back(outShapeInfo[3]);ncs2.push_back(outShapeInfo[4]);std::cout << output_node_names[i].c_str() << " format: " << nums[i] << "x" << nbs[i] << "x" << ncs[i] << "x" << ncs1[i] << "x" << ncs2[i] << std::endl;}else {ncs1.push_back(0);ncs2.push_back(0);std::cout << output_node_names[i].c_str() << " format: " << nums[i] << "x" << nbs[i] << "x" << ncs[i] << std::endl;}}// **************************************************************// ******************* 5.输入数据预处理 *******************// 原始图像的宽高int w = frame.cols;int h = frame.rows;// 原始图像与输入图像之间的缩放系数float x_factor = 0.0;float y_factor = 0.0;// 获得原始图像中宽高中的长边,最为变换正方形的边长int _max = std::max(h, w); // 将原始的矩形图像放大变换成正方形图像,默认补零cv::Mat image = cv::Mat::zeros(cv::Size(_max, _max), CV_8UC3);cv::Rect roi(0, 0, w, h);frame.copyTo(image(roi));// 计算宽高的缩放系数,模型的输入恒定为640×640,必须强制转换成浮点数x_factor = image.cols / static_cast<float>(640); y_factor = image.rows / static_cast<float>(640);// 完成归一化:1.0 / 255.0;缩放:cv::Size(input_w, input_h);格式转换(BGR转RGB):truecv::Mat blob = cv::dnn::blobFromImage(image, 1.0 / 255.0, cv::Size(input_w, input_h), cv::Scalar(0, 0, 0), true, false);std::cout << blob.size[0] << "x" << blob.size[1] << "x" << blob.size[2] << "x" << blob.size[3] << std::endl;// ********************************************************// ******************* 6.推理准备 *******************// 占用内存大小,后续计算是总像素*数据类型大小size_t tpixels = 3 * input_h * input_w;std::array<int64_t, 4> input_shape_info{ 1, 3, input_h, input_w };// 准备数据输入auto allocator_info = Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeCPU);Ort::Value input_tensor_ = Ort::Value::CreateTensor<float>(allocator_info, blob.ptr<float>(), tpixels, input_shape_info.data(), input_shape_info.size());// 模型输入输出所需数据(名称及其数量),模型只认这种类型的数组const std::array<const char*, 1> inputNames = { input_node_names[0].c_str() };const std::array<const char*, 4> outNames = { output_node_names[0].c_str(), output_node_names[1].c_str(), output_node_names[2].c_str(), output_node_names[3].c_str()};// **************************************************// ******************* 7.执行推理 *******************std::vector<Ort::Value> ort_outputs;try {ort_outputs = session_.Run(Ort::RunOptions{ nullptr }, inputNames.data(), &input_tensor_, 1, outNames.data(), outNames.size());}catch (std::exception e) {std::cout << e.what() << std::endl;}// **************************************************// ******************* 8.后处理推理结果 *******************// 1x25200x6 获取(第一个)输出数据并包装成一个cv::Mat对象,为了方便后处理const float* pdata = ort_outputs[0].GetTensorMutableData<float>();cv::Mat det_output(nbs[0], ncs[0], CV_32F, (float*)pdata);std::vector<cv::Rect> boxes; // 目标框的坐标位置std::vector<float> confidences; // 目标框的置信度std::vector<int> classIds; // 目标框的类别得分// 剔除置信度较低的目标框,不作处理for (int i = 0; i < det_output.rows; i++) {float confidence = det_output.at<float>(i, 4);if (confidence < 0.45) {continue;}// 获得当前目标框的类别得分cv::Mat classes_scores = det_output.row(i).colRange(5, ncs[0]);// 这里与图像分类的方式一致cv::Point classIdPoint; // 用于存储分类中的得分最大值索引(坐标)double score; // 用于存储分类中的得分最大值minMaxLoc(classes_scores, 0, &score, 0, &classIdPoint);// 处理分类得分较高的目标框if (score > 0.25){ // 计算在原始图像上,目标框的左上角坐标和宽高// 在输入图像上目标框的中心点坐标和宽高float cx = det_output.at<float>(i, 0); float cy = det_output.at<float>(i, 1);float ow = det_output.at<float>(i, 2);float oh = det_output.at<float>(i, 3);//原始图像上目标框的左上角坐标int x = static_cast<int>((cx - 0.5 * ow) * x_factor); int y = static_cast<int>((cy - 0.5 * oh) * y_factor);//原始图像上目标框的宽高int width = static_cast<int>(ow * x_factor);int height = static_cast<int>(oh * y_factor);// 记录目标框信息cv::Rect box;box.x = x;box.y = y;box.width = width;box.height = height;boxes.push_back(box);classIds.push_back(classIdPoint.x);confidences.push_back(score);}}// NMS:非极大值抑制(Non-Maximum Suppression),去除同一个物体的重复多余的目标框std::vector<int> indexes; // 剔除多余目标框后,保留的目标框的序号cv::dnn::NMSBoxes(boxes, confidences, 0.25, 0.45, indexes);// 遍历筛选出的目标框for (size_t i = 0; i < indexes.size(); i++) {int idx = indexes[i]; // 获取当前目标框序号int cid = classIds[idx]; // 获取目标框分类得分// 输入/输出图像:frame;目标位置信息:boxes[idx];目标框颜色: cv::Scalar(0, 0, 255);// 边框线的厚度:4;线条类型:8;坐标点小数位数精度:0(通常为0)cv::rectangle(frame, boxes[idx], cv::Scalar(0, 0, 255), 4, 8, 0); // 在原始图片上框选目标区域// 输入/输出图像:frame;绘制文本内容:labels[cid].c_str();文本起始位置(左下角):boxes[idx].tl();// 字体类型:cv::FONT_HERSHEY_PLAIN;字体大小缩放比例:2.5;文本颜色:cv::Scalar(255, 0, 0);文本线条的厚度:3;线条类型:8putText(frame, labels[cid].c_str(), boxes[idx].tl(), cv::FONT_HERSHEY_PLAIN, 2.5, cv::Scalar(255, 0, 0), 3, 8); // 目标区域的类别}// ********************************************************// 在测试图像上加上预测的目标位置和类别cv::imshow("输入图像", frame);cv::waitKey(0);// ******************* 9.释放资源*******************session_options.release();session_.release();// *************************************************return 0;
}
图片正确识别人脸:

总结
尽可能简单、详细的讲解了C++下OnnxRuntime环境部署YOLOV3模型的过程。
相关文章:
【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV3模型部署
【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV3模型部署 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV3模型部署前言Windows平台搭建依赖环境模型转换--pytorch转onnxONNXRuntime推…...
【力扣hot100题】(008)找到字符串中所有字母异位词
我果然还是太菜了(点烟)。 一开始想法是构建map,记录每个字母出现的位置,后来想了好久滑动窗口该怎么移动。 后来看了答案才明白滑动窗口是固定的啊啊啊,每次向右滑就两指针同时右移就行。 好简单……为什么我做了这…...
【计科】从操作系统到虚拟化技术(进程调度,内存映射,设备IO,文件、网络管理)
【计科】操作系统基础与虚拟化技术拓展的关系(进程调度,内存映射,设备IO,文件、网络管理) 文章目录 1、进程管理与调度机制(计算)2、内存管理与双重映射3、设备管理与IO机制4、文件管理5、网络与…...
ECharts各类炫酷图表/3D柱形图
一、前言 最近鸡米花实现了各类的炫酷的图表,有3D柱形图、双边柱形图以及异形柱形图,好了,直接上图: 二、效果图 一个个来吧,下面就是代码啦,注意,一下图表展示的宽高均为800px*300px 三、异形横…...
系统与网络安全------网络应用基础(6)
资料整理于网络资料、书本资料、AI,仅供个人学习参考。 Win10系统安装 安装Win10系统 安装准备 Windows10系统的安装光盘 虚拟机可采用ISO文件,windows_10_professional_x64_2024.iso Windows10系统的硬件要求 CPU处理器:1.0Ghz或更快 …...
【区块链安全 | 第七篇】EVM概念详解
文章目录 1. EVM 概述以太坊虚拟机(Ethereum Virtual Machine,EVM)的作用EVM 如何执行智能合约账户类型 2. EVM 体系结构栈(Stack)内存(Memory)存储(Storage)Gas 机制 3.…...
Android设计模式之单例模式
一、定义:确保一个类只有一个实例,并且自动实例化,并向整个系统提供这个实例。 二、使用场景:避免重复创建对象,过多消耗系统资源。 三、使用方式 3.1饿汉式:类加载时立即初始化,线程安全&…...
清晰易懂的Trae实现为AI编程从安装到实战开发ToDoList
一、Trae简介与核心优势 Trae是字节跳动推出的国内首个AI原生集成开发环境(AI IDE),它不同于传统的代码编辑器或AI插件,而是将AI能力深度集成到整个开发流程中,实现"人与AI协同编程"的全新体验。作为一款真…...
基于杜鹃鸟鲶鱼优化(Cuckoo Catfish Optimizer,CCO)算法的多个无人机协同路径规划(可以自定义无人机数量及起始点),MATLAB代码
一、杜鹃鸟鲶鱼优化算法 杜鹃鸟鲶鱼优化(Cuckoo Catfish Optimizer,CCO)算法模拟了杜鹃鸟鲶鱼的搜索、捕食和寄生慈鲷行为。该算法的早期迭代侧重于执行多维包络搜索策略和压缩空间策略,并结合辅助搜索策略来有效限制慈鳔的逃逸空…...
16个气象数据可视化网站整理分享
好的!以下是关于“16个气象数据可视化网站整理分享”的软文: 16个气象数据可视化网站整理分享 气象数据可视化已成为现代气象研究、决策支持以及公众天气服务的重要组成部分。从天气预报到气候变化监测,全球许多气象数据可视化平台为专业人士…...
word光标一直闪的解决办法
在选项里,打开首选项,(如果打不开,可以新建一个word也许就可以,实在不行只能靠眼疾手快,趁他还没闪赶紧点) 选COM加载项,在里面取消勾选MicrosoftOfficePLUS...
⑥ ACG-系统管理
上网管理行为是指对员工在工作时间内使用公司网络的行为进行管理和监督。在企业中,系统管理是实施上网管理行为的重要方式之一。系统管理包括以下几个方面: 1. 访问控制:通过设置网络访问权限,对员工访问特定网站或使用特定应用程…...
基于大模型的肺良性肿瘤术前、术中、术后全流程预测与诊疗方案研究
目录 一、引言 1.1 研究背景与意义 1.2 研究目的 1.3 国内外研究现状 二、大模型预测原理与方法 2.1 大模型概述 2.2 数据收集与预处理 2.3 特征工程 2.4 模型训练与优化 三、术前预测与方案制定 3.1 肿瘤性质预测 3.1.1 预测模型构建 3.1.2 预测结果分析 3.2 手…...
C++ map容器总结
map基本概念 简介: map中所有元素都是pair pair中第一个元素为key(键值),起到索引作用,第二个元素为value(实值) 所有元素都会根据元素的键值自动排序 本质: map/multimap属于关…...
推荐系统(十五):基于双塔模型的多目标商品召回/推荐系统
在电商推荐场景中,用户行为通常呈现漏斗形态:曝光→点击→转化。本文基于TensorFlow构建了一个支持多任务学习的双塔推荐模型,可同时预测点击率(CTR)和转化率(CVR)。通过用户塔和商品塔的分离式设计,模型既能捕捉用户兴趣偏好,又能理解商品特征,最终通过向量相似度计…...
【MLP-BEV(10)】BEVPooling V1和BEVPooling V2的view_transformer,进行鱼眼图片实践
文章目录 先说说 BEVPoolv1步骤1:3D点生成步骤2 2D特征采样和BEV特征生成特点再谈谈BEVPoolv2步骤1:3D点生成步骤2: 计算索引关系步骤3: `voxel_pooling`计算鱼眼图片进行实践步骤1、3D点生成(基于Kannala-Brandt 进行调整)步骤2、2D特征采样和BEV特征生成(1) 体素化 (Voxe…...
Elasticsearch:使用 Azure AI 文档智能解析 PDF 文本和表格数据
作者:来自 Elastic James Williams 了解如何使用 Azure AI 文档智能解析包含文本和表格数据的 PDF 文档。 Azure AI 文档智能是一个强大的工具,用于从 PDF 中提取结构化数据。它可以有效地提取文本和表格数据。提取的数据可以索引到 Elastic Cloud Serve…...
常考计算机操作系统面试习题(四)
目录 1. Peterson 算法伪代码 2. 信号量生产者消费者问题分析 3. 注释 Peterson 主函数并分析输出结果 4. 用 fork 创建子进程的程序 1. Peterson 算法伪代码 题目: 写出 Peterson 算法的伪代码。 参考答案: // 定义变量 boolean flag[2]; /…...
IP 分片重组与 TCP 会话重组
1. IP 分片重组(IP Fragmentation & Reassembly) (1)分片原因 当 IP 数据包长度超过 MTU(Maximum Transmission Unit)(如以太网默认 1500 字节)时,路由器或发送端会…...
【 <二> 丹方改良:Spring 时代的 JavaWeb】之 Spring Boot 中的 AOP:实现日志记录与性能监控
<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、开篇整…...
多模态大模型训练范式演进与前瞻
本文从多模态大模型相关概念出发,并以Flamingo 模型为例,探讨了基于多模态大模型训练的演进与前瞻。新一代训练范式包括统一架构、数据工程革新和动态适应机制,以提升跨模态推理能力和长视频理解。 多模态大模型 定义 什么是多模态大模型&…...
游戏引擎学习第187天
看起来观众解决了上次的bug 昨天遇到了一个相对困难的bug,可以说它相当棘手。刚开始的时候,没有立刻想到什么合适的解决办法,所以今天得从头开始,逐步验证之前的假设,收集足够的信息,逐一排查可能的原因&a…...
HarmonyOS NEXT 关于鸿蒙的一多开发(一次开发,多端部署) 1+8+N
官方定义 定义:一套代码工程,一次开发上架,多端按需部署。 目标:支撑开发者快速高效的开发支持多种终端设备形态的应用,实现对不同设备兼容的同时,提供跨设备的流转、迁移和协同的分布式体验。 什么是18…...
SAP-ABAP:OData 协议深度解析:架构、实践与最佳应用
OData 协议深度解析:架构、实践与最佳应用 一、协议基础与核心特性 协议定义与目标 定位:基于REST的开放数据协议,标准化数据访问接口,由OASIS组织维护,最新版本为OData v4.01。设计哲学:通过统一资源标识符(URI)和HTTP方法抽象数据操作,降低异构系统集成复杂度。核心…...
当Kafka化身抽水马桶:论组件并发提升与系统可用性的量子纠缠关系
《当Kafka化身抽水马桶:论组件并发提升与系统可用性的量子纠缠关系》 引言:一场OOM引发的血案 某个月黑风高的夜晚,监控系统突然发出刺耳的警报——我们的数据发现流水线集体扑街。事后复盘发现:Kafka集群、Gateway、Discovery服…...
Dify+ollama+vanna 实现text2sql 智能数据分析 -01
新鲜出炉-今天安装vanna踩过的坑 今天的任务是安装vanna这个工具,因为dify中自己写的查询向量数据库和执行sql这两步太慢了大概要20S,所以想用下这个工具,看是否会快一点。后面会把这个vanna封装成一个工具让dify调用。 环境说明 我是在本…...
【Python实用技巧】OS模块详解:文件与目录操作的瑞士军刀
大家好,我是唐叔!今天咱们来聊聊Python中那个被低估的"老黄牛"——os模块。这个模块看似简单,但却是每个Python开发者都绕不开的利器。就像我常说的:“不会用os模块的Python程序员,就像不会用筷子的美食家”…...
动态内存分配与内存对齐
在C语言及其他低级编程语言中,内存管理是一个至关重要的主题。动态内存分配和内存对齐是确保程序高效和稳定运行的关键因素。本文将深入探讨动态内存分配的原理,内存对齐的概念,并解释它们如何共同影响程序的性能和资源利用。 一、动态内存分配简介 1.1 动态内存分配的概念…...
C 标准库 – 头文件
1️⃣ <fenv.h> 简介 <fenv.h> 提供了用于控制和检查浮点运算行为的宏和函数。它为浮点环境提供了精细的控制,允许设置舍入模式、捕获浮点异常等。通过 <fenv.h>,程序员可以: 控制浮点舍入模式,指定不同的舍入…...
Redis的基础,经典,高级问题解答篇
目录 一,基础 二,经典 缓存雪崩: 1. Redis事务的原子性 2. 与MySQL事务的区别 1. 主从复制原理 2. 哨兵模式故障转移流程 3. 客户端感知故障转移 三,高级 一,基础 Redis的5种基础数据类型及使用场景…...
