当前位置：首页 > news >正文

医学数据分析实训项目二数据预处理预备知识(数据标准化处理,数据离差标准化处理,数据二值化处理,独热编码处理,数据PCA降维处理)

news 2025/8/24 9:12:17

文章目录

数据预处理预备知识
- 任务一数据标准化处理
- - 1. 数据准备
  - 2. 数据标准化
- 任务二数据离差标准化处理
- 任务三数据二值化处理
- 任务五独热编码处理
- - 对数据进行“离散化处理”（装箱）
  - 将已经装箱的数据进行OneHotEncoder独热编码
- 任务六数据PCA降维处理
- - 1. 导入iris（鸢尾花）数据集
  - 2. 指定特征数的PCA降维
  - 3. 保留方差百分比的PCA降维
- 项目拓展
- - 数据预处理实战——wine酒数据集拆分、标准化和降维处理

数据预处理预备知识

任务一数据标准化处理

使用StandardScaler进行数据预处理

StandardScaler类是一个用来将数据进行归一化和标准化的类。
将数据按其属性（按列进行）减去平均值和缩放到单位方差来标准化特征。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，标准差为1，使得新的X数据集方差为1，均值为0
在进行标准化的过程中就将训练集的均值和方差当做是总体的均值和方差，因此对测试集使用训练集的均值和方差进行预处理。
适用范围：如果数据的分布本身就服从正态分布，就可以用这个方法。

# StandardScaler类的使用
from sklearn.preprocessing import StandardScaler
import numpy as npX = np.array([[1., -1., 2.],[2., 0., 0.],[0., 1., -1.]])
# 计算平均值
X_mean = X.mean(axis=0)
# 计算方差
X_std = X.std(axis=0)
# 标准化X 
X1 = (X - X_mean) / X_std  # 自己计算# 调用sklearn包的方法
X_scale = StandardScaler().fit_transform(X)
# 最终X1与X_scale等价
print('均值方差标准化后的数据：\n', X1)
print('StandardScaler标准差标准化后的数据：\n', X_scale)

在这里插入图片描述

1. 数据准备

import matplotlib.pyplot as plt
# 导入数据集生成工具
from sklearn.datasets import make_blobsplt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号# 生成一个样本量为50，分类数为1，标准差为1的聚类数据集
X, y = make_blobs(n_samples=50, centers=1, cluster_std=1, random_state=8)
# 用散点图绘制数据点
plt.scatter(X[:, 0], X[:, 1], c='blue')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.title('原始数据')
plt.show()

在这里插入图片描述

2. 数据标准化

# 导入StandardScaler
from sklearn.preprocessing import StandardScaler# 使用StandardScaler进行数据处理，用于将数据转换为均值为 0,标准差为 1 的标准正态分布。
scaler = StandardScaler().fit(X)
X_1 = scaler.transform(X)
# 也可以用fit_transform()实现
# X_1 = StandardScaler().fit_transform(X)# 用散点图绘制经过预处理的数据点
plt.scatter(X_1[:, 0], X_1[:, 1], c='blue')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.title('均值方差标准化数据')
plt.show()

在这里插入图片描述

任务二数据离差标准化处理

将每个元素（特征，feature）转换成给定范围的值。
MinMaxScaler有一个重要参数"feature_range"，控制数据压缩到的范围，默认是[0,1]。
适用范围：适用于数据在一个范围内分布的情况，在不涉及距离度量、协方差计算、数据不符合正态分布的时候，可以使用MinMaxScaler。

# 导入MinMaxScaler
from sklearn.preprocessing import MinMaxScaler# 使用MinMaxScaler进行数据预处理
X_2 = MinMaxScaler().fit_transform(X)
# 绘制散点图
plt.scatter(X_2[:, 0], X_2[:, 1], c='blue')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.title('离差标准化数据')
plt.show()

在这里插入图片描述

任务三数据二值化处理

特征的二值化主要是为了将数据特征转化为boolean变量
Binarizer也可以设置一个阈值，结果数据值大于阈值的为1，小于阈值的为0

import numpy as np
# 导入Binarizer
from sklearn.preprocessing import Binarizerdata = np.array([[3, -1.5, 2, -5.4],[0, 4, -0.3, 2.1],[1, 3.3, -1.9, -4.3]])
# 特征二值化
data_binarized = Binarizer(threshold=1.4).transform(data)
print("二值化处理后的数据: \n", data_binarized)

在这里插入图片描述

## 任务四 数据归一化处理
- normalizer 数据归一化使每个特征向量的值都缩放到相同的数值范围。归一化的形式有l1,l2范数等
- sklearn.preprocessing.Normalizer(norm='l2', copy=True) - norm：可以为l1、l2或max，默认为l2- 若为l1时，样本各个特征值除以各个特征值的绝对值之和- 若为l2时，样本各个特征值除以各个特征值的平方之和- 若为max时，样本各个特征值除以样本中特征值最大的值

# 导入Normalizer
from sklearn.preprocessing import Normalizer# 使用Normalizer进行数据预处理，默认为l2范数
# 将所有样本的特征向量转化为欧几里得距离为1；通常在只想保留数据特征向量的方向，而忽略其数值的时候使用
X_3 = Normalizer().fit_transform(X)
# 绘制散点图
plt.figure(figsize=(6, 6))
plt.scatter(X_3[:, 0], X_3[:, 1], c='blue')
plt.xlim(0, 1.1)
plt.ylim(0, 1.1)
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.title('L2范数的归一化化处理')
plt.show()

在这里插入图片描述

# 修改norm参数为范数l1
X_4 = Normalizer(norm='l1').fit_transform(X)
# 绘制散点图
plt.figure(figsize=(6, 6))
plt.scatter(X_4[:, 0], X_4[:, 1], c='blue')
plt.xlim(0, 1.1)
plt.ylim(0, 1.1)
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.title('L1范数的归一化化处理')
plt.show()

在这里插入图片描述

任务五独热编码处理

独热编码（One-Hot Encoding）把特征向量的每个特征与特征的非重复总数相对应，通过one-of-k的形式对每个值进行编码，如果非重复计数的值是k，那么就把这个特征转换为只有一个值是1其他值都是0的k维向量。
OneHotEncoder 参数：
- categories：表示特征的取值，该参数取值为list或者默认的’auto’

import numpy as np
# 导入OneHotEncoder
from sklearn.preprocessing import OneHotEncoderdata_type = np.array([[0, 1],[1, 3],[2, 0],[1, 2]])
print(data_type)
encoder = OneHotEncoder(categories='auto').fit(data_type)
data_encoded = encoder.transform(data_type).toarray()
print("编码后的数据: \n", data_encoded)

在这里插入图片描述

对数据进行“离散化处理”（装箱）

numpy.digitize(x, bins, right = False)
该函数返回输入数组x中每个值所属的数组bins的区间索引。
参数：
- x : numpy数组
- bins : 一维单调数组，必须是升序或者降序
- right：间隔是否包含最右
返回值：x在bins中的位置。

import numpy as np# 定义一个随机数的数组
np.random.seed(38)
arr = np.random.uniform(-5, 5, size=20)
# 设置箱体数为5
bins = np.linspace(-5, 5, 6)
# 将数据进行装箱操作
target_bin = np.digitize(arr, bins=bins)
# 打印装箱数据范围
print('装箱数据范围：\n{}'.format(bins))
print('\n数据点的特征值：\n{}'.format(arr))
print('\n数据点所在的箱子：\n{}'.format(target_bin))

在这里插入图片描述

将已经装箱的数据进行OneHotEncoder独热编码

from sklearn.preprocessing import OneHotEncoder# 假设 target_bin 是你的目标变量
target_bin = target_bin.reshape(-1, 1)# 初始化 OneHotEncoder，注意这里不需要设置 sparse 参数， 因为sparse参数已经被移除
# onehot = OneHotEncoder(sparse=False, categories='auto')
onehot = OneHotEncoder(categories='auto')# 拟合并转换数据
onehot.fit(target_bin)
arr_in_bin = onehot.transform(target_bin)# 打印结果
print('装箱编码后的数据形态：{}'.format(arr_in_bin.shape))
print('\n装箱编码后的数据值：\n{}'.format(arr_in_bin))

在这里插入图片描述

任务六数据PCA降维处理

PCA通过计算协方差矩阵的特征值和相应的特征向量，在高维数据中找到最大方差的方向，并将数据映射到一个维度不大于原始数据的新的子空间中。

1. 导入iris（鸢尾花）数据集

# 导入iris（鸢尾花）数据集
from sklearn.datasets import load_iris# 加载iris数据集
iris = load_iris()
X = iris.data
print('iris数据集的维度为：', X.shape)print('iris数据集的前5行数据为：\n', X[:5])

在这里插入图片描述

2. 指定特征数的PCA降维

# 导入PCA
from sklearn.decomposition import PCA# 指定保留的特征数为3
pca_num = PCA(n_components=3)
# 训练PCA模型
pca_num.fit(X)
# 对样本数据进行PCA降维
X_pca1 = pca_num.transform(X)
# 查看降维结果
print('iris数据集进行指定特征数的降维后的维度为：', X_pca1.shape)
# 查看降维后的前5行数据
print('指定特征数的降维后iris数据集的前5行数据为：\n', X_pca1[:5])

在这里插入图片描述

# 查看原始特征与PCA主成分之间的关系
import numpy as npprint('指定特征数的降维后的最大方差的成分：')
for i in range(pca_num.components_.shape[0]):arr = np.around(pca_num.components_[i], 2)print('component{0}: {1}'.format((i + 1), [x for x in arr]))

在这里插入图片描述

# 查看降维后的各主成分的方差值和方差占比
var = np.around(pca_num.explained_variance_, 2)
print('指定特征数的降维后的各主成分的方差为：', [x for x in var])
var_ratio = np.round(pca_num.explained_variance_ratio_, 2)
print('指定特征数的降维后的各主成分的方差百分比为：', [x for x in var_ratio])

在这里插入图片描述

3. 保留方差百分比的PCA降维

# 指定保留的方差百分比为0.95
pca_per = PCA(n_components=0.95)
# 训练PCA模型
pca_per.fit(X)
# 对样本数据进行PCA降维
X_pca2 = pca_per.transform(X)
# 查看降维结果
print('iris数据集进行指定方差百分比的降维后的维度为：', X_pca2.shape)
# 查看降维后的前5行数据
print('指定方差百分比的降维后iris数据集的前5行数据为：\n', X_pca2[:5])

在这里插入图片描述

# 查看原始特征与PCA主成分之间的关系
print('指定方差百分比降维后的最大方差的成分：')
for i in range(pca_per.components_.shape[0]):arr = np.round(pca_per.components_[i], 2)print('component{0}: {1}'.format((i + 1), [x for x in arr]))

在这里插入图片描述

# 查看降维后的各主成分的方差值和方差占比
var = np.around(pca_per.explained_variance_, 2)
print('指定方差百分比的降维后的各主成分的方差为：', [x for x in var])
var_ratio = np.round(pca_per.explained_variance_ratio_, 2)
print('指定方差百分比的降维后的各主成分的方差百分比为：', [x for x in var_ratio])

在这里插入图片描述

项目拓展

数据预处理实战——wine酒数据集拆分、标准化和降维处理

# 1. 导入wine酒数据集
# 导入wine酒模块
from sklearn.datasets import load_wine
import numpy as np# 加载wine数据集
wine = load_wine()
# “input”是特征数据
X = wine.data
# “target”是目标变量数据(酒的类别标签)
y = wine.target
# 查看特征数据的维度
print('wine数据集的维度为：', X.shape)
# 查看酒的类别
print('wine数据集的类别标签为：', np.unique(y))

在这里插入图片描述

# 2. 将wine数据集划分为训练集和测试集
# 导入数据集拆分工具
from sklearn.model_selection import train_test_split# 将数据集拆分为训练数据集和测试数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)# 输出训练数据集中特征向量的维度
print('训练集数据维度：', X_train.shape)
# 输出训练数据集中目标标签的维度
print('训练集标签维度：', y_train.shape)
# 输出测试数据集中特征向量的维度
print('测试集数据维度：', X_test.shape)
# 输出测试数据集中特征向量的维度
print('测试集标签维度：', y_test.shape)

在这里插入图片描述

# 3. 对数据集进行标准化处理
# 导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 对训练集进行拟合生成规则
scaler = StandardScaler().fit(X_train)
# 对训练集数据进行转换
X_train_scaled = scaler.transform(X_train)
# 对测试集数据进行转换
X_test_scaled = scaler.transform(X_test)print('标准化前训练集数据的最小值和最大值：{0}, {1}'.format(X_train.min(), X_train.max()))
print('标准化后训练集数据的最小值和最大值：{0:.2f}, {1:.2f}'.format(X_train_scaled.min(), X_train_scaled.max()))
print('标准化前测试集数据的最小值和最大值：{0}, {1}'.format(X_test.min(), X_test.max()))
print('标准化后测试集数据的最小值和最大值：{0:.2f}, {1:.2f}'.format(X_test_scaled.min(), X_test_scaled.max()))

在这里插入图片描述

# 4. 对数据进行降维处理
# 导入PCA
from sklearn.decomposition import PCA
# 设置主成分数量为2
pca = PCA(n_components=2)
# 对标准化后的训练集进行拟合生成规则
pca.fit(X_train_scaled)
# 对标准化后的训练集数据进行PCA降维
X_train_pca = pca.transform(X_train_scaled)
# 对标准化后的测试集数据进行PCA降维
X_test_pca = pca.transform(X_test_scaled)print('降维后训练集的维度为：', X_train_pca.shape)
print('降维后测试集的维度为：', X_test_pca.shape)

在这里插入图片描述

# 5. wine数据集可视化
import numpy as np
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']   # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False     # 用来正常显示负号# 绘制wine数据集图形
plt.figure(figsize=(8, 6))
for i, color, name in zip(np.unique(y), ['r','g','b'], wine.target_names):# 绘制降维后的训练集样本图形plt.scatter(X_train_pca[y_train==i,0], X_train_pca[y_train==i,1],c=color, marker='o', label='类别'+name+'训练集')# 绘制降维后的测试集样本图形plt.scatter(X_test_pca[y_test==i,0], X_test_pca[y_test==i,1],c=color, marker='*', label='类别'+name+'测试集')plt.xlabel("成分1")
plt.ylabel("成分2")
plt.legend(loc='best')
plt.show()

在这里插入图片描述

医学数据分析实训项目二数据预处理预备知识(数据标准化处理,数据离差标准化处理,数据二值化处理,独热编码处理,数据PCA降维处理)

文章目录数据预处理预备知识任务一数据标准化处理1. 数据准备2. 数据标准化任务二数据离差标准化处理任务三数据二值化处理任务五独热编码处理对数据进行“离散化处理”（装箱）将已经装箱的数据进行OneHotEncoder独热编码任务六数据PCA降维处理1.…...

编程日记 2024/9/15 3:29:38

MySQL查询执行（四）：查一行也很慢

假设存在表t，这个表有两个字段id和c，并且我在里面插入了10万行记录。 -- 创建表t CREATE TABLE t (id int(11) NOT NULL,c int(11) DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB;-- 通过存储过程向t写入10w行数据 delimiter ;; create procedure idat…...

编程日记 2024/9/15 3:26:35

【Obsidian】当笔记接入AI，Copilot插件推荐

当笔记接入AI，Copilot插件推荐自己的知识库笔记如果增加AI功能会怎样？AI的回答完全基于你自己的知识库余料，是不是很有趣。在插件库中有Copilot插件这款插件，可以实现这个梦想。一、什么是Copilot？ 我们知道githu…...

编程日记 2024/9/15 3:25:34

Spring Cloud集成Gateaway

Spring Cloud Gateway 是一个基于 Spring 生态的网关框架，用于构建微服务架构中的API网关。它可以对请求进行路由、过滤、限流等操作，是Spring Cloud微服务体系中常用的组件之一。下面介绍 Spring Cloud Gateway 的核心概念、应用场景以及简单的示例。 …...

编程日记 2024/9/15 3:24:33

如何准备技术面试？

大家好，我是老三，好久没更新了，翻出之前的一篇旧稿，是一篇总纲性质的文章——如何准备一场技术面试。这篇文章原本的开头是写给金三银四的，转眼就“金九银十”了，每一年都是最差的一年，又是未来…...

编程日记 2024/9/15 3:23:32

Kafka原理剖析之「Topic创建」

一、前言 Kafka提供了高性能的读写，而这些读写操作均是操作在Topic上的，Topic的创建就尤为关键，其中涉及分区分配策略、状态流转等，而Topic的新建语句非常简单 bash kafka-topics.sh \ --bootstrap-server localhost:9092 \ // …...

编程日记 2024/9/15 3:21:30

Java 高级学习路线概要~

前言：恭喜你已经掌握了 Java 的基础知识！现在，让我们踏上 Java 高级学习之旅，探索更强大的编程技巧和技术。学习前记得不要忘了巩固和加强基础的学习哦，高级学习也是建立在基础的学习之上。 1. 集合框架进阶 Map 接口…...

编程日记 2024/9/15 3:20:29

浏览器插件快速开启/关闭IDM接管下载

假设你已经为浏览器安装了IDM扩展，那么按下图的点击顺序，可以快速开启或关闭IDM的下载接管，而不必在IDM软件的设置->选项中，临时作调整。...

编程日记 2024/9/15 3:19:28

初识c++：入门基础

打字不易，留个赞再走吧~~ 目录一.第一个c程序二.命名空间 namespace三.C输⼊&输出四.缺省参数 C兼容C语⾔绝⼤多数的语法，所以C语⾔实现的hello world依旧可以运⾏，C中需要把定义⽂件代码后缀改为.cpp 一.第一个c程序做好准备我们来写…...

编程日记 2024/9/15 3:16:26

Java Exception 异常相关总结

1.简介在Java中，当代码运行有问题时会抛出异常，主要分为两类： 1.可以通过try...catch来捕获解决的，不影响后续执行的RuntimeException。 2.不可以通过代码解决的Exception。为了提高代码的健壮性，我们会选择去捕…...

编程日记 2024/9/15 3:14:23

HighCharts图表自动化简介

什么是分析数据？在任何应用程序中捕获并以图形或图表形式显示的分析数据是任何产品或系统的关键部分，因为它提供了对实时数据的洞察。验证此类分析数据非常重要，因为不准确的数据可能会在报告中产生问题，并可能影响应用程序/系统的其他相关领域。什么是HighChart？ …...

编程日记 2024/9/15 3:13:21

使用LDAP登录GitLab gitlab.rb 配置如下 gitlab_rails[ldap_enabled] true #gitlab_rails[prevent_ldap_sign_in] false###! **remember to close this block with EOS below** gitlab_rails[ldap_servers] YAML.load <<-EOSmain:label: LDAPhost: 172.16.10.180port:…...

编程日记 2024/9/15 3:11:19

【2024】前端学习笔记5-表单标签使用

表单是网页提供的一种交互式操作手段，主要用于采集用户输入的信息。学习笔记 1.表单框架：form标签1.1.action属性：目标指向1.2.method属性：提交方式1.3.id属性：唯一标识1.4.placeholder属性：提示文字2.input标签2.1.text类型：基本文本输入2.2.password类型：密码输入2.…...

编程日记 2024/9/15 3:10:19

数据结构--二叉树（C语言实现，超详细！！！）

文章目录二叉树的概念代码实现二叉树的定义创建一棵树并初始化组装二叉树前序遍历中序遍历后序遍历计算树的结点个数求二叉树第K层的结点个数求二叉树高度查找X所在的结点查找指定节点在不在完整代码二叉树的概念二叉树（Binary Tree）是数据结构中一种…...

编程日记 2024/9/15 3:07:17

【将字符串变为空的编辑距离】

题目描述求由s串变成t串的编辑距离在s串的开头/末尾添加一个字符，花费p 在s串的开头/末尾添加一个s串的子串，花费q 每次作都是基于当前的s串 s串初始为空分析等价于将一个字符串变为空串的过程第一层按照长度遍历（如果按照下标i,j遍…...

编程日记 2024/9/15 3:06:15

卡特兰数的推理

卡特兰数（Catalan number），又称卡塔兰数、明安图数，是组合数学中一种常出现于各种计数问题中的数列。它以比利时数学家欧仁查理卡特兰的名字命名，但值得注意的是，这一数列的首次发现可以追溯到1730年&#…...

编程日记 2024/9/15 3:05:14

高精度治具加工的重要性和优势

在现代工业制造中，高精度治具加工扮演着举足轻重的角色。它不仅关乎产品制造的精度与质量，还直接影响到生产效率和成本控制。因此，时利和将深入探讨高精度治具加工的重要性和优势，对于提升工业制造水平具有重要意义。高精度治具加…...

编程日记 2024/9/15 3:04:13

新版IDEA提示@Autowired不建议字段注入

随着项目的复杂度的增加，我们通常会在一个业务类中注入其他过多的业务类。从而使当前的业务层扩充成一个大而全的功能模块。那么就容易出现一下问题字段注入会让依赖关系变得不那么明显，因为你无法通过构造函数看到所有的依赖项。使用构造函数时&#…...

编程日记 2024/9/15 3:00:07

adb的安装和使用以及安装Frida 16.0.10+雷电模拟器

.NET兼职社区 .NET兼职社区 .NET兼职社区 1.下载adb Windows版本：https://dl.google.com/android/repository/platform-tools-latest-windows.zip 2.配置adb环境变量按键windowsr打开运行，输入sysdm.cpl，回车。高级》环境变量》系统变量》…...

编程日记 2024/9/15 2:59:06

解决移动端1px 边框优化的8个方法

前言您是否注意到 1px 边框在移动设备上有时会显得比预期的要粗？这种不一致源于移动屏幕的像素密度不同。在 Web 开发中，我们使用 CSS 来设置页面样式。但是，CSS 中的 1px 并不总是转换为设备上的物理 1px。这种差异就是我们的“1px 边框…...

编程日记 2024/9/15 2:54:01

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2025/8/23 9:15:41

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2025/8/5 3:56:34

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用一、背景与挑战大型活动（如演唱会、马拉松赛事、高考中考等）期间，城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例，暖城商圈曾因观众集中离场导致周边…...

编程新知 2025/8/22 3:50:53

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/6/15 19:02:54

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2025/8/21 19:12:52

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/6/26 20:21:28

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2025/8/4 15:55:44