当前位置：首页 > news >正文

【CSP试题回顾】202012-2-期末预测之最佳阈值（优化）

news 2026/2/9 11:03:55

CSP-202012-2-期末预测之最佳阈值

关键点

1.map的遍历方式

map<int, int>occ0Num, occ1Num;
for (auto it = thetaSet.begin(); it != thetaSet.end(); ++it) {num = num + occ0Num[*it] - occ1Num[*it];auto nextIt = next(it);  // 获取下一个迭代器if (num >= maxNum && nextIt != thetaSet.end()) {bestTheta = *nextIt;  // 使用下一个元素的值maxNum = num;}
}

2.时间复杂度优化：减少重复计算

100分思路通过预处理（排序和计数）以及有效地更新正确预测的次数来避免了不必要的重复计算，显著提高了效率。与70分的暴力枚举方法相比，它将时间复杂度从 $O(n^2)$ 降低到了 $O (n l o g n)$ ，这对于大数据集来说是一个重大的改进。

暴力枚举方法（70分思路）：

这个方法通过对所有可能的阈值进行枚举来找到最佳阈值。对于每个可能的阈值，它遍历所有样本，计算以该阈值进行分类时的准确性（即正确预测的次数）。这需要两层嵌套循环：外层循环遍历所有可能的阈值，内层循环遍历所有样本来计算准确性。
- 时间复杂度： 如果有 n 个样本，则外层循环执行 n 次（因为阈值是从样本中选取的），内层循环也执行 n 次（每次都要检查所有样本）。因此，总时间复杂度为 $O(n^2)$ 。

减少重复运算方法（100分思路）：

首先，预先计算每个可能阈值对应的分类结果，这是通过对样本进行排序和统计每个特征值下真实结果为真和假的样本数量来实现的。接下来，它只遍历一次排序后的样本列表来初始化正确预测次数，然后遍历所有不同的特征值作为可能的阈值，而不是重新计算每个可能阈值的正确预测次数。这是通过更新一个累计计数来完成的，该计数在遍历过程中根据当前阈值下样本分类的变化而调整。
- 时间复杂度： 对所有样本排序的时间复杂度为 $O (n l o g n)$ 。初始化正确预测次数的循环时间复杂度为 O(n)（单次遍历）。遍历不同的特征值（可能的阈值）来调整正确预测次数的循环也是 $O (n)$ ，因为即使是在所有不同的特征值上迭代，这个数量也不会超过 n（在最坏情况下，所有特征值都不相同）。因此，整体时间复杂度是 $O (n l o g n + n)$ ，即 $O (n l o g n)$ ，这主要由排序决定。

解题思路

题目是关于找到一个最佳阈值（θ）来评价预测模型的性能。这个预测模型基于一个特征值（y）来预测是否达到某个结果，使用二分类的方式，即预测结果为真（1）或假（0）。评价的核心是找到一个阈值，使得当预测值与真实结果相等时的次数最多。代码的解题思路如下：

数据读取：读取样本数量以及每个样本的特征值（y）和真实结果（result）。同时，初始化两个映射（occ0Num 和 occ1Num），它们分别记录每个特征值对应的结果为假（0）和真（1）的样本数量。还有一个集合（thetaSet）来存储所有可能的阈值（即所有不同的特征值）。
预处理：对样本按照特征值（y）进行排序，确保后续处理有序进行。排序同时也方便后续确定阈值的选择。
初始化：初始化当前的最佳预测次数num为最小特征值作为阈值时的正确预测次数，这通过比较每个样本的特征值与最小特征值（作为初始阈值）来确定，并计算满足条件（预测等于真实结果）的样本数。
寻找最佳阈值：遍历所有可能的阈值（通过遍历每个不同的特征值）。对每个阈值，根据其将样本分为两类（大于等于阈值、小于阈值）的能力来调整正确预测的次数。每次迭代调整基于前一个阈值的正确次数，并考虑当前阈值导致的结果变化（即增加因特征值大于等于阈值且结果为假的样本数，减少因特征值小于阈值且结果为真的样本数）。每当找到更好的分割（即正确预测的次数增加），更新最佳阈值bestTheta和最大预测正确次数maxNum。
输出最佳阈值：在完成所有可能的阈值检验后，输出能得到最多正确预测次数的阈值bestTheta。

完整代码

【100分思路-减少重复运算】

#include <iostream>
#include <vector>
#include <algorithm>
#include <map>
#include <set>
using namespace std;struct MyScore
{int y;bool result;
};bool predict(int y, int theta) {return y >= theta;
}bool cmp(MyScore& a, MyScore& b) {return a.y < b.y;
}int n, bestTheta, maxNum, num;
map<int, int>occ0Num, occ1Num;
set<int>thetaSet;int main() {cin >> n;vector<MyScore>list(n);for (size_t i = 0; i < n; i++) {cin >> list[i].y >> list[i].result;auto it0 = occ0Num.find(list[i].y), it1 = occ1Num.find(list[i].y);;if (it0 == occ0Num.end()) occ0Num[list[i].y] = 0;if (it1 == occ1Num.end()) occ1Num[list[i].y] = 0;if (list[i].result) occ1Num[list[i].y]++;else occ0Num[list[i].y]++;thetaSet.insert(list[i].y);}sort(list.begin(), list.end(), cmp);for (auto& it : list) {if (predict(it.y, list[0].y) == it.result) num++;}bestTheta = list[0].y, maxNum = num;for (auto it = thetaSet.begin(); it != thetaSet.end(); ++it) {num = num + occ0Num[*it] - occ1Num[*it];auto nextIt = next(it);  // 获取下一个迭代器if (num >= maxNum && nextIt != thetaSet.end()) {bestTheta = *nextIt;  // 使用下一个元素的值maxNum = num;}}cout << bestTheta;return 0;
}

【70分思路-暴力枚举】

#include <iostream>
#include <vector>
#include <algorithm>
using namespace std;struct MyScore
{int y;bool result;
};bool predict(int y, int theta) {return y >= theta;
}bool cmp(MyScore& a, MyScore& b) {return a.y > b.y;
}int n, bestTheta, maxNum;int main() {cin >> n;vector<MyScore>list(n);for (size_t i = 0; i < n; i++){cin >> list[i].y >> list[i].result;}sort(list.begin(), list.end(), cmp);for (size_t i = 0; i < n; i++){int theta = list[i].y, num = 0;for (auto& it : list){if (predict(it.y, theta) == it.result) num++;}if (num > maxNum){bestTheta = theta;maxNum = num;}  }cout << bestTheta;return 0;
}

【CSP试题回顾】202012-2-期末预测之最佳阈值（优化）

CSP-202012-2-期末预测之最佳阈值关键点 1.map的遍历方式 map<int, int>occ0Num, occ1Num; for (auto it thetaSet.begin(); it ! thetaSet.end(); it) {num num occ0Num[*it] - occ1Num[*it];auto nextIt next(it); // 获取下一个迭代器if (num > maxNum &a…...

编程日记 2024/3/26 12:33:46

docker学习笔记三-----docker安装部署

我使用的部署环境是centos 7.9 1、安装依赖工具 yum install -y yum-utils device-mapper-persistent-data lvm2 安装完成如下图 2、添加docker的软件信息源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo url地址为如…...

编程日记 2024/3/26 12:32:45

FastAPI+React全栈开发02 什么是FARM技术栈

Chapter01 Web Development and the FARM Stack 02 What is the FARM stack and how does it fit together? FastAPIReact全栈开发02 什么是FARM技术栈 It is important to understand that stacks aren’t really special, they are just sets of technologies that cover…...

编程日记 2024/3/26 12:30:43

C#程序结构详解

目录背景: 一、C#程序的基本组成部分二、C# Hello World示例三、程序结构解析四、编译与执行C#程序五、总结背景: 在学习C#编程语言的过程中，了解程序的基本结构是非常重要的。C#程序由多个组成部分构成，每个部分都有其特定的功能和作用。下面…...

编程日记 2024/3/26 12:29:42

linux 清理空间

1. 根目录下执行命令，查看每个目录下文件大小总和 rootvm10-88-88-3 /]# du -h --max-depth1 79M ./tmp 123M ./etc 4.0K ./media 4.0K ./srv 104M ./boot 5.3G ./var 0 ./sys 8.6M ./dev 196G ./usr 4.0K ./mnt 285M ./opt…...

编程日记 2024/3/26 12:28:41

C语言：给结构体取别名的4种方法

0 前言在进行嵌入式开发的过程中，我们经常会见到typedef这个关键字，这个关键字的作用是给现有的类型取别名，在实际使用过程中往往是将一个复杂的类型名取一个简单的名字，便于我们的使用。就像我们给很熟的人取外号一样&#xff…...

编程日记 2024/3/26 12:26:39

今天聊聊Docker

在数字化时代，软件应用的开发和部署变得越来越复杂。环境配置、依赖管理、版本控制等问题给开发者带来了不小的挑战。而Docker作为一种容器化技术，正以其独特的优势成为解决这些问题的利器。本文将介绍Docker的基本概念、优势以及应用场景，帮…...

编程日记 2024/3/26 12:22:34

【C语言】结构体

个人主页点这里~ 结构体一、结构体类型的声明1、结构的声明2、结构体变量的创建和初始化3、声明时的特殊情况4、自引用二、结构体内存对齐1、对齐规则2、存在内存对齐的原因3、修改默认对齐数三、结构体传参四、结构体实现位段一、结构体类型的声明我们在指针终篇中提到过…...

编程日记 2024/3/26 12:21:33

Git基础(24):分支回退

文章目录前言放弃已修改的内容分支回退到指定commit 前言将分支回退到之前的某个版本开发中，可能开发某个功能不需要了，或者想要回退到之前历史的某个commit， 放弃后来修改的内容。放弃已修改的内容如果未提交，直接使用 …...

编程日记 2024/3/26 12:19:31

复试专业前沿问题问答合集1

复试专业前沿问题问答合集1 人工智能基础知识问答 Q1: 什么是人工智能（AI）？ A1: 人工智能（AI）是计算机科学的一个分支，它涉及创建能够执行通常需要人类智能的任务的机器和软件。这些任务包括学习（获取信息并根据信息对其进行规则化以达到结论）、推理（使用规则达到近…...

编程日记 2024/3/26 12:18:30

C++标准库中提供的用于处理正则表达式的类std::regex

std 是 C 标准库的命名空间，包含了大量标准的 C 类、函数和对象。这些类和函数提供了广泛的功能，包括输入输出、容器、算法、字符串处理等。通常，为了使用标准库中的对象和函数，需在代码中包含相应的头文件，比如 #in…...

编程日记 2024/3/26 12:17:29

.NET Core 服务实现监控可观测性最佳实践

前言本次实践主要是介绍 .Net Core 服务通过无侵入的方式接入观测云进行全面的可观测。环境信息系统环境：Kubernetes编程语言：.NET Core ≥ 2.1日志框架：Serilog探针类型：ddtrace 接入方案准备工作 DataKit 部署 DataK…...

编程日记 2024/3/26 12:15:27

AI基础知识扫盲

AI基础知识扫盲 AIGCLangchain--LangGraph | 新手入门RAG（Retrieval-Augmented Generation）检索增强生成fastGPT AIGC AIGC是一种新的人工智能技术，它的全称是Artificial Intelligence Generative Content，即人工智能生成内容。 …...

编程日记 2024/3/26 12:13:26

分布式系统面试全集通第一篇（dubbo+redis+zookeeper----分布式+CAP+BASE+分布式事务+分布式锁）

目录分布式系统面试全集通第一篇什么是分布式?和微服务的区别什么是分布式分布式与微服务的区别什么是CAP?为什么不能三者同时拥有分区容错性一致性可用性 Base理论了解吗基本可用软状态最终一致性什么是分布式事务分布式事务有哪些常见的实现方案?2PC（Two Ph…...

编程日记 2024/3/26 12:11:24

Prompt-RAG：在特定领域中应用的革新性无需向量嵌入的RAG技术

论文地址：https://arxiv.org/ftp/arxiv/papers/2401/2401.11246.pdf 原文地址：https://cobusgreyling.medium.com/prompt-rag-98288fb38190 2024 年 3 月 21 日虽然 Prompt-RAG 确实有其局限性，但在特定情况下它可以有效地替代传统向量嵌入 …...

编程日记 2024/3/26 12:09:22

线性代数 - 应该学啥以及哪些可以交给计算机

AI很热，所以小伙伴们不免要温故知新旧时噩梦 - 线代。 （十几年前，还有一个逼着大家梦回课堂的风口，图形学。） 这个真的不是什么美好的回忆，且不说老师的口音，也不说教材的云山雾绕，单…...

编程日记 2024/3/26 12:02:16

力扣面试150 Pow(x, n) 快速幂负指数

Problem: 50. Pow(x, n) 解题方法 👨‍🏫 参考题解复杂度时间复杂度: O ( l o g 2 n ) O(log_{2}n) O(log2n) 空间复杂度: O ( 1 ) O(1) O(1) Code class Solution {public double myPow(double x, int n){if (x 0.0f)return 0.0d;long b…...

编程日记 2024/3/26 11:57:11

连接navicat报错2059 解决办法

这里写自定义目录标题连接navicat报错2059 解决办法连接navicat报错2059 解决办法打开终端工具输入 mysql -hlocalhost -uroot -p回车（enter），输入密码后进入 mysql 。（PS： -h 后面是数据库地址， -u 后…...

编程日记 2024/3/26 11:55:08

Unity-UGUI系统

UGUI是什么 UGUI是Unity引擎内自带的UI系统官方称之为:Unity Ul 是目前Unity商业游戏开发中使用最广泛的UI系统开发解决方案它是基于Unity游戏对象的UI系统，只能用来做游戏UI功能不能用于开发Unity编辑器中内置的用户界面六大基础组件概述 Canvas EventS…...

编程日记 2024/3/26 11:54:07

配置AC和AP上报KPI指标信息实验

配置AC和AP上报KPI指标信息示例组网图形图1 AP直接上报KPI指标图2 AP通过AC透传上报KPI指标业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件业务需求在云管理的ACFIT AP组网中，通过WMI上报机制，将AC和AP的KPI指标信息上报到iMast…...

编程日记 2024/3/26 11:53:06

vscode里如何用git

打开vs终端执行如下： 1 初始化 Git 仓库（如果尚未初始化） git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

编程新知 2025/8/24 20:45:38

golang循环变量捕获问题

在 Go 语言中，当在循环中启动协程（goroutine）时，如果在协程闭包中直接引用循环变量，可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下： 问题背景看这个代码片段： fo…...

编程新知 2026/1/21 14:29:57

QMC5883L的驱动

简介本篇文章的代码已经上传到了github上面，开源代码作为一个电子罗盘模块，我们可以通过I2C从中获取偏航角yaw，相对于六轴陀螺仪的yaw，qmc5883l几乎不会零飘并且成本较低。参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

编程新知 2026/1/2 4:05:05

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日来简单学一下子来一、选择题（可多选） 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘：专注于发现数据中…...

编程新知 2026/1/24 14:15:43

聊聊 Pulsar：Producer 源码解析

一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台，以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中，Producer（生产者） 是连接客户端应用与消息队列的第一步。生产者…...

编程新知 2026/2/5 21:34:41

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2026/1/25 3:21:09

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍，多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述二、position 的五种类型详解（初学者版） 1. static（默认值） 2. relative（相对定位） 3. absolute（绝对定位） 4. fixed（固定定位） 5. sticky（粘性定位）三、定位元素的层级关系（z-i…...

编程新知 2026/2/9 1:38:05

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2026/2/1 6:56:36