当前位置：首页 > news >正文

K近邻回归原理详解及Python代码示例

news 2026/2/10 14:56:56

K近邻回归原理详解

K近邻回归（K-Nearest Neighbors Regression, KNN）是一种基于实例的学习算法，用于解决回归问题。它通过找到输入数据点在特征空间中最相似的K个邻居（即最近的K个数据点），并使用这些邻居的平均值来预测目标值。

K近邻回归原理详解

1. 基本概念

2. 工作原理

3. 优点

4. 缺点

5. 实际应用

Python代码示例

代码解释

1. 基本概念

KNN回归的基本思想是“相似的数据点具有相似的目标值”。它不需要显式的训练过程，而是直接在输入数据上进行预测，因此属于懒惰学习算法（Lazy Learning）。

2. 工作原理

KNN回归的工作流程如下：

选择K值：确定用于预测的邻居数量K，这个参数对模型性能有很大影响。
计算距离：对于每个待预测的数据点，计算它与训练集中所有数据点的距离。常用的距离度量包括欧氏距离、曼哈顿距离等。
找到K个最近邻：根据计算的距离，从训练集中找到K个距离最近的数据点。
预测目标值：将这K个最近邻的数据点的目标值进行平均，得到待预测数据点的预测值。

3. 优点

简单易懂：KNN回归原理简单，易于实现和理解。
无需训练：KNN回归不需要训练过程，因此在数据更新时无需重新训练模型。
灵活性高：KNN回归对数据分布没有假设，可以处理非线性数据。

4. 缺点

计算开销大：在预测时需要计算所有训练数据点的距离，对于大规模数据集效率较低。
存储需求高：需要存储所有训练数据，内存开销大。
对噪声敏感：对数据中的噪声和异常值敏感，可能影响预测结果。
参数选择困难：K值的选择对模型性能影响较大，需通过交叉验证等方法确定最佳K值。

5. 实际应用

KNN回归在许多实际应用中表现良好，适用于回归、分类以及其他需要基于相似性进行预测的问题，如推荐系统、模式识别等。

Python代码示例

以下是一个完整的Python代码示例，用于实现K近邻回归。我们将使用scikit-learn库来构建和评估模型。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error# 生成一些示例数据
np.random.seed(0)
x = np.sort(5 * np.random.rand(100, 1), axis=0)
y = np.sin(x).ravel()
y[::5] += 3 * (0.5 - np.random.rand(20))  # 添加噪声# 可视化原始数据
plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.title("Original Data")
plt.show()# 数据标准化
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x_scaled, y, test_size=0.2, random_state=42)# 创建K近邻回归模型并进行拟合
knn = KNeighborsRegressor(n_neighbors=5)
knn.fit(x_train, y_train)# 预测结果
y_train_pred = knn.predict(x_train)
y_test_pred = knn.predict(x_test)# 可视化拟合结果
x_test_sorted = np.sort(x_test, axis=0)
y_test_pred_sorted = knn.predict(x_test_sorted)plt.figure()
plt.scatter(x_train, y_train, s=20, edgecolor="black", c="darkorange", label="train data")
plt.scatter(x_test, y_test, s=20, edgecolor="black", c="blue", label="test data")
plt.plot(x_test_sorted, y_test_pred_sorted, color="green", label="predictions", linewidth=2)
plt.title("K-Nearest Neighbors Regression")
plt.legend()
plt.show()# 打印模型参数和均方误差
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)
print("Train Mean Squared Error:", train_mse)
print("Test Mean Squared Error:", test_mse)

代码解释

数据生成：
- 生成100个随机点，并将这些点排序。
- 使用正弦函数生成目标值，并在部分数据上添加随机噪声以增加数据的复杂性。
数据可视化：
- 绘制生成的原始数据点，用散点图表示。
数据标准化：
- 使用StandardScaler对数据进行标准化处理，以使得输入特征具有零均值和单位方差。
数据划分：
- 将数据划分为训练集和测试集，训练集占80%，测试集占20%。
创建K近邻回归模型：
- 使用KNeighborsRegressor类构建K近邻回归模型，设置参数n_neighbors=5表示选择5个最近邻。
模型训练：
- 在训练数据上训练K近邻回归模型。
结果预测：
- 在训练集和测试集上进行预测，生成预测结果。
可视化拟合结果：
- 绘制训练数据、测试数据及模型的预测结果，观察模型的拟合效果。
模型评估：
- 计算并打印训练集和测试集的均方误差（MSE），评估模型的拟合性能。

K近邻回归原理详解及Python代码示例

K近邻回归原理详解 K近邻回归（K-Nearest Neighbors Regression, KNN）是一种基于实例的学习算法，用于解决回归问题。它通过找到输入数据点在特征空间中最相似的K个邻居（即最近的K个数据点），并使用这些邻居的…...

编程日记 2024/6/28 10:11:16

idea 开发工具properties文件中的中文不显示

用idea打开一个项目，配置文件propertise中的中文都不展示，如图： 可修改idea配置让中文显示： 勾选箭头指向的框即可，点击应用保存，重新打开配置文件，显示正常...

编程日记 2024/6/28 10:10:14

让DroidVNC-NG支持中文输入

DroidVNC-NG支持控制端输入内容，但是仅支持英文字符，如果需要控制输入法软键盘输入中文的话就没办法了，经过摸索找到了解决办法。这个解决办法有个条件就是让DroidVNC-NG成为系统级应用（这个条件比较苛刻）&#xff…...

编程日记 2024/6/28 10:03:07

android dialog 显示时 activity 是否会执行 onPause onStop

当一个 Android Dialog 显示时，当前 Activity 通常不会执行 onPause 或 onStop 方法。Dialog 是附加到 Activity 上的一个窗口，它不会中断或替换当前的 Activity，因此 Activity 的生命周期方法 onPause 和 onStop 不会被调用。然而&#xf…...

编程日记 2024/6/28 9:56:00

如何在MySQL中按字符串中的数字排序

在管理数据库时，我们经常遇到需要按嵌入在字符串中的数字进行排序的情况。这在实际应用中尤为常见，比如文件名、代码版本号等字段中通常包含数字，而这些数字往往是排序的关键。本文将详细介绍如何在MySQL中利用正则表达式提取字符串中的数字并…...

编程日记 2024/6/28 9:54:59

memcacheredis构建缓存服务器

Memcached&Redis构建缓存服务器前言许多Web应用都将数据保存到 RDBMS中，应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大、访问的集中，就会出现RDBMS的负担加重、数据库响应恶化、网站显示延迟等重大影响。Memcached/redis是高性能…...

编程日记 2024/6/28 9:53:57

Linux基础- 使用 Apache 服务部署静态网站

目录零. 简介一. linux安装Apache 二. 创建网页三. window访问修改了一下默认端口到 8080 零. 简介 Apache 是世界使用排名第一的 Web 服务器软件。它具有以下一些显著特点和优势： 开源免费：可以免费使用和修改，拥有庞大的社区支…...

编程日记 2024/6/28 9:52:55

接口自动化测试框架实战（Pytest+Allure+Excel）

🍅 视频学习：文末有免费的配套视频可观看 🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快 1. Allure 简介 Allure 框架是一个灵活的、轻量级的、支持多语言的测试报告工具，它不…...

编程日记 2024/6/28 9:51:54

如何预防和处理他人盗用IP地址？

IP地址的定义及作用解释 IP 地址在互联网中的作用。它是唯一标识网络设备的数字地址，类似于物理世界中的邮政地址。 1、IP地址盗窃的定义解释一下什么是IP地址盗用，即非法使用他人的IP地址或者伪造IP地址的行为，这种行为可能引发法律和安…...

编程日记 2024/6/28 9:50:53

【ai】李沐动手深度学学v2 环境安装：anaconda3、pycharm、d2

cuda-toolkit cuda_12.5.0_windows_network.exe 官方课程网站第二版资源下载release版本 pycharm版本李沐【动手学深度学习v2 PyTorch版】课程笔记 CUDA 选择11，实际下载 12.5.0...

编程日记 2024/6/28 9:49:51

前后端分离对软件行业及架构设计的影响

在软件开发领域，前后端分离是一种越来越流行的架构设计模式。这种方法将用户界面（前端）与服务器逻辑（后端）分离开来，允许它们独立开发、测试和部署。本文将探讨前后端分离对软件行业和架构设计的影响&#…...

编程日记 2024/6/28 9:48:49

深入解析Dubbo架构层次

什么是Dubbo？ Dubbo是阿里巴巴开源的一款高性能优秀的服务框架，致力于提供高性能和透明化的 RPC 远程服务调用方案，以及 SOA 服务治理方案。它的主要功能包括： 远程通信：提供高效的远程通信能力。负载均衡&#xff1…...

编程日记 2024/6/28 9:47:48

关于GPIO的上拉、下拉，无上下拉

1.GPIO_PULLUP（上拉） 作用和原理作用：上拉模式会在GPIO引脚和电源电压（Vcc）之间连接一个内部上拉电阻。原理：当引脚配置为输入模式时，如果引脚没有连接到其他外部电路，内部上拉电…...

编程日记 2024/6/28 9:45:46

Python 语法基础二

7.常用内置函数执行这个命令可以查看所有内置函数和内置对象（两个下划线） >>>dir(__builtins__) [__class__, __contains__, __delattr__, __delitem__, __dir__, __doc__, __eq__, __format__, __ge__, __getattribute__, __getitem__, __gt…...

编程日记 2024/6/28 9:44:45

HTML5与HTML：不仅仅是标签的革新

当我们提到HTML5，很多人会想到这是HTML的一个升级版本，增加了许多新的标签和特性。然而，HTML5带来的变化远不止于此。它是一个全面的网页开发框架，重新定义了网络应用程序的构建方式，为开发者提供了前所未有的灵活性和…...

编程日记 2024/6/28 9:43:43

Mybatis面试学习

1.介绍一下mybatis mybatis是一个半自动的ORM的框架，ORM就是对象关系映射。（对象指的是Java对象，关系指的是数据库中的关系模型，对象关系映射，指的就是在Java对象和数据库的关系模型之间建立一种对应关系）…...

编程日记 2024/6/28 9:41:41

el-date-picker设置时间范围

下面这种写法会报错：找不到expirationDate，这是因为涉及到this的指向问题在普通函数中，this 的上下文并不指向 Vue 组件实例，而是取决于函数的调用方式或者是否使用了严格模式 <el-date-pickerclass"date-icon-common&q…...

编程日记 2024/6/28 9:40:40

Links: Challenging Puzzle Game Template（益智游戏模板）

链接：挑战益智游戏《Links》是一款独特且具有挑战性的益智游戏，即将发布。每个级别都会向玩家展示不同的棋盘。目标是通过移动和旋转所有棋子来连接它们。每个棋子都有自己的特点和功能-你可以移动它们，旋转它们，或者两者兼而有之。连接所有棋子，以解决难度和挑战不断增…...

编程日记 2024/6/28 9:38:38

java基于ssm+jsp 仓库智能仓储系统

1管理员功能模块管理员登录，通过填写用户名、密码等信息，输入完成后选择登录即可进入智能仓储系统 ，如图1所示。图1管理员登录界面图智能仓储系统 ，在智能仓储系统可以查看个人中心、公告信息管理、员工管理、供应商管理、商…...

编程日记 2024/6/28 9:36:36

第24篇滑动开关控制LED＜二＞

Q：如何使用Intel FPGA Monitor Program创建滑动开关控制LED工程并运行呢？ A：创建工程的基本过程与前面的Intel FPGA Monitor Program的使用<三>一样，不同的地方是，本实验工程用到了开发板的外设硬件LED和SW&…...

编程日记 2024/6/28 9:35:35

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

python打卡day49

知识点回顾： 通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

编程新知 2026/2/7 5:37:17

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

作者：来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。想获得 Elastic 认证吗？了解下一期 Elasticsearch Engineer 培训的时间吧！ Elasticsearch 拥有众多新功能，助你为自己…...

编程新知 2026/1/23 7:23:58

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2026/2/4 17:51:19

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

每日一言生活的美好，总是藏在那些你咬牙坚持的日子里。硬件：OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写，"1306" 是产品编号。驱动 OLED 屏幕的 IIC 总线数据传输格式示意图 …...

编程新知 2026/1/30 4:16:26

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用引言随着无人机（无人驾驶飞行器，UAV）技术的快速发展，其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统，无人机的“黑飞”&…...

编程新知 2026/1/26 6:01:03

逻辑回归暴力训练预测金融欺诈

简述「使用逻辑回归暴力预测金融欺诈，并不断增加特征维度持续测试」的做法，体现了一种逐步建模与迭代验证的实验思路，在金融欺诈检测中非常有价值，本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

编程新知 2026/2/8 5:05:41

区块链技术概述

区块链技术是一种去中心化、分布式账本技术，通过密码学、共识机制和智能合约等核心组件，实现数据不可篡改、透明可追溯的系统。一、核心技术 1. 去中心化特点：数据存储在网络中的多个节点（计算机），而非…...

编程新知 2025/10/25 7:41:33

K近邻回归原理详解

Python代码示例

代码解释

相关文章：