当前位置：首页 > news >正文

KNN 回归

news 2026/2/10 7:40:06

K 近邻回归（K-Nearest Neighbors Regression）是一种基于实例的回归算法，用于预测连续数值型的输出变量。它的基本思想是通过找到与给定测试样本最近的 K 个训练样本，并使用它们的输出值来预测测试样本的输出。它与 K 最近邻分类类似，但是用于解决回归问题而不是分类问题。

K 近邻回归算法的基本步骤：

数据准备：首先，我们需要准备训练集和测试集的特征数据和对应的目标变量。特征数据可以包括数值型、分类型或二元型的特征。目标变量是我们要预测的连续数值。
选择 K 值和距离度量方法：K 值是指选择的最近邻居的数量，通常通过交叉验证等方法来选择最优的 K 值。距离度量方法用于计算样本之间的距离，常见的方法有欧氏距离、曼哈顿距离等。
计算距离：对于给定的测试样本，我们计算它与训练集中所有样本的距离。距离的计算方法取决于选择的距离度量方法。
选择最近的 K 个邻居：根据距离的计算结果，选择与测试样本最近的 K 个训练样本作为邻居。可以使用排序算法（如快速排序）来加快寻找最近邻居的过程。
预测输出：对于回归问题，根据这 K 个邻居的输出值，可以采用平均值或加权平均值作为预测输出。通常，距离较近的邻居会被赋予更高的权重。
模型评估：使用回归评估指标（如均方误差、平均绝对误差等）来评估模型的性能。可以使用交叉验证等方法来获取更准确的模型评估结果。

需要注意的是，K 值的选择对算法的性能有重要影响。较小的 K 值会导致模型过拟合，而较大的 K 值可能会导致模型欠拟合。因此，通常需要通过交叉验证等方法来选择最优的 K 值。

K 近邻回归算法的基本思想就是，在给定一个新的数据点，它的输出值由其 K 个最近邻数据点的输出值的平均值（或加权平均值）来预测。

简单地说，KNN 回归使用多个近邻（即 k > 1）时，预测结果为这些邻居的对应目标值的平均值。

KNN 回归也可以用 score 方法进行模型评估，返回的是 $R^2$ 分数。 $R^2$ （R-squared）分数也叫做决定系数，是用来评估模型拟合优度的指标，它表示因变量的方差能够被自变量解释的比例。 $R^2$ 的取值范围在 0 到 1 之间，越接近 1 表示模型对数据的拟合越好，即模型能够解释更多的因变量的方差。当 $R^2$ 接近 0 时，说明模型无法解释因变量的方差，拟合效果较差。简单地说， $R^2 = 1$ 对应完美预测， $R^2 = 0$ 对应常数模型，即总是预测训练集响应（y_train）的平均值。

$R^2 = 1 - (SSR / SST) = 1 - \frac{\displaystyle\sum_{i=1}^{n}(y_i - y'_i)^2}{\displaystyle\sum_{i=1}^{n}(y_i - y_{mean})^2}$

其中， $y$ 为实际观测值， $y^{'}$ 为预测值， $y_{mean}$ 为实际观测值的均值。

SSR 与 SST：

SSR（Sum of Squares Residual）为残差平方和，表示模型预测值与实际观测值之间的差异。
SST（Total Sum of Squares）为总平方和，表示实际观测值的方差。

一般来说，KNN 分类器有 2 个重要参数：邻居个数以及数据点之间距离的度量方法。在实践中，使用较小的邻居个数（比如 3 个或 5 个）往往可以得到较好的结果，但在不同问题中应根据具体情况调节这个参数。数据点之间的距离度量方法默认使用欧式距离，它在许多情况下的效果都很好。

如果训练集很大（特征数很多或样本数很大），KNN 模型的预测速度可能会比较慢。
使用 KNN 算法时，对数据进行预处理是很重要的。
这一算法对于有很多特征（几百或更多）的数据集往往效果不好，对于大多数特征的大多数取值都为 0 的数据集（所谓的稀疏数据集）来说，这一算法的效果尤其不好。

在 sklearn 中调用 KNN 回归模型：

from sklearn.neighbors import KNeighborsRegressorreg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)
y_pred = reg.predict(X_new)

KNN 回归

相关文章：

KNN 回归

Kali Linux——获取root权限

听GPT 讲Rust源代码--compiler(28)

Debezium日常分享系列之：Debezium2.5版本之connector for JDBC

爬虫网易易盾滑块案例：某乎

机器学习笔记 - 偏最小二乘回归 (PLSR)

【HTML5】第1章 HTML5入门

dyld: Library not loaded: /usr/lib/swift/libswiftCoreGraphics.dylib

React Hooks中useState的介绍，并封装为useSetState函数的使用

5 个最适合SEI 网络空投交易等操作的钱包(Bitget Wallet,Coin98等)

.net8 AOT编绎-跨平台调用C#类库的新方法-函数导出

第三十八周周报：文献阅读 +BILSTM+GRU+Seq2seq

天津最新web前端培训班如何提升web技能？

Linux下QT生成的（.o）、（.a）、（.so）、（.so.1）、（.so.1.0）、（.so.1.0.0）之间的区别

线性代数 --- 为什么LU分解中L矩阵的行列式一定等于正负1？

Redisson 源码解析 - 分布式锁实现过程

玩转贝启科技BQ3588C开源鸿蒙系统开发板 —— 开发板详情与规格

Qt pro文件

实验笔记之——服务器链接

微服务-java spi 与 dubbo spi

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

【OSG学习笔记】Day 18: 碰撞检测与物理交互

DockerHub与私有镜像仓库在容器化中的应用与管理

大型活动交通拥堵治理的视觉算法应用

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

抖音增长新引擎：品融电商，一站式全案代运营领跑者

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

相机从app启动流程

unix/linux，sudo，其发展历程详细时间线、由来、历史背景

CRMEB 框架中 PHP 上传扩展开发：涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云