当前位置：首页 > news >正文

数据清洗-缺失值填充-K-NN算法（K-Nearest Neighbors, K-NN算法）

news 2026/2/10 20:44:04

一、安装所需的python包
二、采用K-NN算法进行缺失值填充
- 2.1代码（完整代码关注底部微信公众号获取）
- 2.2以某个缺失值数据进行实战
- - 2.2.1代码运行过程截屏：
  - 2.2.2填充后的数据截屏：
三、K 近邻算法 (K-Nearest Neighbors, KNN) 介绍
- 3.1 K 近邻算法定义
- 3.2 K 近邻算法的基本思想
- 3.3 K 近邻算法的步骤
- 3.4 K 近邻算法的距离度量
- 3.5 K 近邻算法的优缺点
- - 3.5.1 优点
  - 3.5.2 缺点
- 3.6 K 近邻算法的应用场景
- 3.7 K 近邻算法的改进方法

感觉大家对原理性的东西不太感兴趣，那我就直接举例提供代码，以及详细的注释，大家自己对照改代码应用于你自己建立的模型吧。

完整代码关注博客底部微信公众号获得！

这些代码全部是我自己做数模竞赛时候自己用的代码。可以直接运行，记得修改文件路径。

一、安装所需的python包

pip install pandas scikit-learn scipy numpy joblib

二、采用K-NN算法进行缺失值填充

注意代码需要把自己的数据文件格式转换为CSV文件，并且把路径修改为自己文件所在的路径，不会转换的参考我此教程文件格式转换：EXCEL和CSV文件格式互相转换。

我知道大家对原理性的东西不感兴趣，我把他的原理介绍放在文末，需要写论文的同学自己拿去用，记得修改，否则查重率过不去。

2.1代码（完整代码关注底部微信公众号获取）

"""
K-NN
1.**K-最近邻 (K-Nearest Neighbors, K-NN)**: K-NN是一种
基于实例的学习，或是局部而似和将所有计算推识到分类之
后的情性学习。整个训练数据集都存储在横型中。K-NN算
法比其他技术更适合用于多类目分类问题，如果你对填补缺
失值的速度和精度的平衡感兴趣，这是一个不错的选择。这个的效果比牛顿插值法差一点，，而那些训练模型的那个可能是因为数据量太少，效果差，这是我的一点经验。
"""import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer
from scipy.interpolate import interp1d
import numpy as np
import joblib# 读取数据，请将'缺失值填充.csv'替换为你的真实数据文件名
filename = '缺失值填充.csv'
data = pd.read_csv(filename, encoding='gbk')# 输出处理后的数据
print(original_data)
original_data.to_csv('knn填充.csv', index=False)

2.2以某个缺失值数据进行实战

注意：数据量较少，由自己构建，均有规律，
如下图：

构造缺失值，如下图：

运行代码查看填充后的数据怎么样，
运行代码如下图+填充后的截图：

2.2.1代码运行过程截屏：

在这里插入图片描述

2.2.2填充后的数据截屏：

在这里插入图片描述

说明：估计是数据量太小，或者缺失值太多，导致填充的效果一般（对于这种规律的数据使用牛顿插值法倒是挺不错的，数据量大的，可以使用神经网络遗传算法来进行缺失值填充，下面我都会介绍），但是你在进行数模比赛时候，需要说明为什么你要选用knn算法，说明他的原理即可，不必纠结填充的数据是否正确，因为你本身也不知道数据的正确性。

接下来我将分享其他我参加数模时候常用的几种数据填充的代码，都是我自己调试跑通过的，大家直接复制粘贴使用。

三、K 近邻算法 (K-Nearest Neighbors, KNN) 介绍

3.1 K 近邻算法定义

K 近邻算法 (K-Nearest Neighbors, KNN) 是一种基本的监督学习算法，主要用于分类和回归问题。KNN 算法基于“相似的输入具有相似的输出”这一假设，通过计算给定数据点与训练数据集中其他点的距离，找出与其最接近的 K 个邻居，然后根据这些邻居的类别或数值进行预测。KNN 算法的核心思想是：相似的样本往往具有相似的输出。

3.2 K 近邻算法的基本思想

KNN 算法没有显式的学习过程，也不需要构建显式的模型，它属于 惰性学习算法。KNN 的主要步骤如下：

计算距离：对于一个需要分类或回归的数据点，计算它与训练集中每个数据点的距离。常用的距离度量方法包括欧几里得距离、曼哈顿距离和闵可夫斯基距离等。
选择最近的 K 个邻居：根据计算出的距离，选择距离最小的 K 个邻居。
投票或平均：
- 分类问题：在分类问题中，KNN 算法根据 K 个邻居中出现次数最多的类别进行投票决定待预测点的类别。
- 回归问题：在回归问题中，KNN 算法通过 K 个邻居的数值平均来预测待预测点的值。

3.3 K 近邻算法的步骤

选择参数 K 的值：决定选择多少个邻居参与投票或计算平均值。
计算距离：对于待分类或回归的样本，计算它与训练数据集中每个样本的距离。
选择最近的 K 个邻居：根据距离对训练数据进行排序，选取距离最近的 K 个样本。
进行分类或回归：
- 分类：在 K 个邻居中，选择出现次数最多的类别作为预测结果。
- 回归：在 K 个邻居中，取目标值的平均值作为预测结果。

3.4 K 近邻算法的距离度量

常用的距离度量方法有：

欧几里得距离 (Euclidean Distance)：
$\sqrt{\sum_{i=1}^n (x_i - y_i)^2}$
曼哈顿距离 (Manhattan Distance)：
$\sum_{i=1}^n |x_i - y_i|$
闵可夫斯基距离 (Minkowski Distance)：
$\left( \sum_{i=1}^n |x_i - y_i|^p \right)^{1/p}$

3.5 K 近邻算法的优缺点

3.5.1 优点

简单易懂：KNN 算法简单直观，易于理解和实现。
无需训练：由于 KNN 是惰性学习算法，它不需要显式的训练过程，计算开销集中在预测阶段。
可用于分类和回归：KNN 算法既可以用于分类问题，也可以用于回归问题。

3.5.2 缺点

计算复杂度高：对于大数据集，计算待预测点与所有训练数据点的距离需要大量的计算资源。
内存开销大：需要存储所有的训练数据，在内存有限的情况下处理大规模数据可能存在困难。
对不相关特征敏感：KNN 算法对数据中的不相关特征和噪声比较敏感，需要进行特征选择和数据预处理。
参数选择困难：选择合适的 K 值是一个挑战，K 值过小容易导致过拟合，K 值过大容易导致欠拟合。

3.6 K 近邻算法的应用场景

KNN 算法广泛应用于以下场景：

分类问题：例如，文本分类、图像分类、用户行为分类等。
回归问题：例如，预测房价、预测股票价格等。
异常检测：例如，检测信用卡欺诈、网络入侵检测等。
推荐系统：例如，电影推荐、商品推荐等。

3.7 K 近邻算法的改进方法

归一化或标准化数据：由于 KNN 算法对特征的尺度非常敏感，通常需要对数据进行归一化或标准化处理。
使用加权 KNN：在基本的 KNN 中，所有邻居的权重相同，可以改进为对距离更近的邻居赋予更大的权重，以提高算法的准确性。
使用降维方法：可以使用 PCA（主成分分析）或其他降维方法减少特征维数，以减少计算量和内存使用。

数据清洗-缺失值填充-K-NN算法（K-Nearest Neighbors, K-NN算法）

目录一、安装所需的python包二、采用K-NN算法进行缺失值填充2.1代码（完整代码关注底部微信公众号获取）2.2以某个缺失值数据进行实战2.2.1代码运行过程截屏：2.2.2填充后的数据截屏： 三、K 近邻算法 (K-Nearest Neighbors, KNN) 介…...

编程日记 2024/9/22 2:50:55

爬虫----webpack

目录一. 什么是webpack 出现的原因：同名函数概念: 特征：大量缩进 webpack的格式简单的webpack格式： 详细的webpack格式： 几个参数的运用 1. webpack数组形式 2. webpack对象格式 3.多个js文件打包打印要扣的代码 …...

编程日记 2024/9/22 2:46:51

Spring Mybatis PageHelper分页插件总结

1.简介使用分页插件可以帮助我们自动分页，不用手动在写sql的分页逻辑。 2.配置步骤在pom.xml中添加依赖 <dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper</artifactId><version>5.1.11<…...

编程日记 2024/9/22 2:43:48

9、等保测评介绍

数据来源：9.等保测评介绍_哔哩哔哩_bilibili 信息系统等级测评信息系统等级测评是测评机构依据国家信息安全等级保护制度的规定，按照相关管理规范和技术标准，对未涉及国家秘密的信息系统的安全等级保护状况进行检测评估的活动。等级测评…...

编程日记 2024/9/22 2:41:46

解决Gson将长数字( json字符串)转换为科学记数法格式

Gson（又称Google Gson）是Google公司发布的一个开放源代码的Java库，主要用途为序列化Java对象为JSON字符串，或反序列化JSON字符串成Java对象。依赖 Gradle: dependencies {implementation com.google.code.gson:gson:2.11.0 }…...

编程日记 2024/9/22 2:40:45

php环境搭建教程

PHP环境搭建教程在构建和开发PHP应用程序时，搭建一个稳定、高效的PHP环境是基础且关键的一步。本教程将详细介绍如何在不同操作系统（Windows和Linux）上搭建PHP环境，包括Apache服务器的安装与配置、PHP的安装与配置、MySQL的安装…...

编程日记 2024/9/22 2:33:35

测试ASP.NET Core的WebApi项目调用WebService

虚拟机中部署的匿名访问的WebService，支持简单的加减乘除操作。本文记录在WebApi中调用该WebService的方式。 VS2022创建WebApi项目，然后在解决方案资源管理器的Connected Services节点点右键，选择管理连接的服务菜单。点击下图圈红处…...

编程日记 2024/9/22 2:30:33

【用Java学习数据结构系列】对象的比较（Priority Queue实现的前提）

看到这句话的时候证明：此刻你我都在努力加油陌生人个人主页：Gu Gu Study 专栏：用Java学习数据结构系列喜欢的一句话： 常常会回顾努力的自己，所以要为自己的努力留下足迹喜欢的话可以点个赞谢谢了。作者&#xff…...

编程日记 2024/9/22 2:28:30

快手视频怎么保存到相册?(详细操作)

随着短视频的流行，快手已经成为越来越多人日常生活的一部分。无论是搞笑片段、旅行记录，还是生活点滴，用户们每天都会在快手上浏览到大量有趣的视频。有时候，我们会遇到特别想保存的视频，想要分享到朋友圈，…...

编程日记 2024/9/22 2:27:29

为什么 ECB 模式不安全

我们先来简单了解下 ECB 模式是如何工作的 ECB 模式不涉及链接模式，所以也就用不着初始化向量，那么相同的明文分组就会被加密成相同的密文分组，而且每个分组运算都是独立的，这也就意味着可以并行提高运算效率，但也正是…...

编程日记 2024/9/22 2:26:28

『功能项目』事件中心处理怪物死亡【55】

本章项目成果展示我们打开上一篇54回调函数处理死亡的项目， 本章要做的事情是用事件中心处理怪物死亡后的逻辑首先打开之前事件中心脚本（不做更改，调用即可）： using System.Collections.Generic; using UnityEngine…...

编程日记 2024/9/22 2:25:27

一个安卓鸿蒙化工具

DevEco插件，为已有安卓项目鸿蒙化加速。目前支持： 1、安卓Vector Assets转svg； 2、json转ets model； 3、kotlin model转ets model； 下载地址：andtoharplugin1.1.0 安装： deveco插件安装选硬…...

编程日记 2024/9/22 2:20:23

PyQt5库学习之QFileDialog.getExistingDirectory函数

PyQt5库学习之QFileDialog.getExistingDirectory函数一、简介 QFileDialog.getExistingDirectory 是 PyQt5 中的一个函数，它提供了一个标准的目录选择对话框，允许用户选择一个已存在的目录。这个函数是 QFileDialog 类的一部分，通常用于打开…...

编程日记 2024/9/22 2:19:22

AUTOSAR_EXP_ARAComAPI的5章笔记（9）

☞ 返回总目录 5.4 骨架类（Skeleton Class） 骨架类是由AUTOSAR 元模型的服务接口描述（SI description）生成的。ara::com对生成的骨架类的接口进行了标准化。自适应平台（AP）产品供应商的工具链将生成一个完…...

编程日记 2024/9/22 2:18:21

京东-第2题-撞车

Powered by:NEFU AB-IN Link 文章目录京东-第2题-撞车题意思路代码京东-第2题-撞车题意一条单向单车道的道路上有n辆车，第i辆车位于 xi;，速度大小为 vi。显然，如果车辆保持此速度行驶下去，在大多数情况下都会发生碰撞。现…...

编程日记 2024/9/22 2:17:19

Vue3流程图插件-Vue Flow

1、安装：通过 npm 或 yarn 安装 Vue Flow。 npm install vueflow/core# 或者yarn add vueflow/core 2、引入：在你的 Vue 3 项目中引入 Vue Flow。 import { VueFlow, Background, Controls, MiniMap } from vueflow/core;3、使用：在 Vue…...

编程日记 2024/9/22 2:15:17

初始网络编程（下）

所属专栏：Java学习 1. TCP 的简单示例同时，由于 TCP 是面向字节流的传输，所以说传输的基本单位是字节，接受发送都是使用的字节流方法签名方法说明 Socket accept() 开始监听指定端口（创建时绑定的端口&…...

编程日记 2024/9/22 2:12:15

java计算机毕设课设—土地档案管理系统(附源码、文章、相关截图、部署视频)

这是什么系统？ 资源获取方式在最下方 java计算机毕设课设—土地档案管理系统(附源码、文章、相关截图、部署视频) 土地档案管理系统是一种将传统纸质档案进行数字化管理的软件。通过该系统，用户能够高效地进行土地档案的存储、查阅、修改和删除等操作…...

编程日记 2024/9/22 2:11:13

第4步CentOS配置SSH服务用SSH终端XShell等连接方便文件上传或其它操作

宿主机的VM安装CENTOS文件无法快速上传，也不方便输入命令行，用SSH终端xshell连接虚拟机的SSH工具就方便多了，实现VM所在宿主机Win10上的xshell能连接vm的centos要实现以下几个环节 1、确保宿主机与虚拟机的连通性。 2、虚拟机安装SSH服务&…...

编程日记 2024/9/22 2:10:12

Spring：统一结果私有属性造成的前端无法访问异常报错问题

用户未填写任何评价 1.问题复现 （1）看一段代码 controller： import lombok.extern.slf4j.Slf4j; import org.ljy.testdemo.common.Result; import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.w…...

编程日记 2024/9/22 2:08:10

UE5 学习系列（三）创建和移动物体

这篇博客是该系列的第三篇，是在之前两篇博客的基础上展开，主要介绍如何在操作界面中创建和拖动物体，这篇博客跟随的视频链接如下： B 站视频：s03-创建和移动物体如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

编程新知 2026/1/24 10:00:31

django filter 统计数量按属性去重

在Django中，如果你想要根据某个属性对查询集进行去重并统计数量，你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求： 方法1：使用annotate()和Count 假设你有一个模型Item，并且你想…...

编程新知 2026/1/11 2:37:51

GitHub 趋势日报 (2025年06月08日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...

编程新知 2025/12/13 1:32:15

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币，另给一个整数 amount 表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额，返回 0 。假设每一种面额的硬币有无限个。题目数据保证结果符合 32 位带…...

编程新知 2025/10/4 6:30:56

C++.OpenGL （20/64）混合（Blending）

混合（Blending）透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

编程新知 2026/1/20 5:33:17

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看一个默认的页面，gobuster扫一下目录可以看到扫出的目录中得到了一个有价值的目录/wordpress，说明目标所使用的cms是wordpress，访问http://192.168.43.213/wordpress/然后查看源码能看到这…...

编程新知 2026/1/29 5:24:50