当前位置：首页 > news >正文

机器学习——KNN算法

news 2026/3/30 1:12:04

1、：前提知识

KNN算法是机器学习算法中用于分类或者回归的算法，KNN全称为K nearest neighbour（又称为K-近邻算法）
原理：K-近邻算法采用测量不同特征值之间的距离的方法进行分类。
优点：精度高
缺点：时间和空间复杂度高
K近邻算法思想：有N个样本分布在m个类别中，要判定第x个样本为什么类别，就要求出x到N个样本每个样本的距离集合，从中找出K个最近的样本，然后通过k个样本的比例判断x所属类别，例如在k个样本中第一类占比较多，就判定x是第一类数据。注意：计算x到N个样本之间的距离方法有两种，第一种是曼哈顿距离，第二种是欧式距离，他们的计算如下：

可以看出，曼哈顿距离计算复杂度较低，计算速度快。
实现方法：基于谷歌公司开发的第三方python库sklearn
实现步骤：
- 1、导入numpy、pandas、matplotlib、from sklearn.neighbors import KNeighborsClassifier第三方库
- 2、导入原始数据（导入数据后可以通过散点图进行数据可视化简单了解下数据）
- 3、将数据划分为训练数据（x_train、y_train）和测试数据（x_test、y_test），注意：在KNN中输入数据x为二维数据，输出数据y为一维数据。（注意：二维数据代表数据只能有行和列两个维度，但x可以有多个，x也叫做特征）
- 4、设定KNN算法参数，引入KNN模型
- 5、通过fit函数输入训练数据，训练KNN模型
- 6、通过测试数据测试KNN模型
- 7、计算模型准确率

2、案例：

我有一份原始数据，数据中有两个变量，分别为“武打镜头”和“接吻镜头”，通过这两个变量可以判断这部影片为动作片还是爱情片，规则就是：武打镜头大于接吻镜头为动作片，武打镜头小于接吻镜头为爱情片，原始数据如下：
代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导入KNN分类库
from sklearn.neighbors import KNeighborsClassifier# 1、导入数据
movie = pd.read_excel('./tests.xlsx',sheet_name="Sheet2")
# 2、数据可视化
plt.scatter(movie.loc[:,'武打镜头'],movie.loc[:,'接吻镜头'])
plt.show
# 3、训练数据赋值,x(二维)、y(一维)
x_train = movie.loc[:,['武打镜头','接吻镜头']]
y_train = movie.loc[:,'分类情况']
print(type(x_train),type(y_train))
# 4、设置KNN参数（近邻数量为5，距离计算方法为曼哈顿），引入KNN模型
KNN = KNeighborsClassifier(n_neighbors=5,p=1)
# 5、训练模型
KNN.fit(x_train,y_train)
# 6、设置测试数据测试训练完的KNN模型
x_test = np.array([[30,2],[3,36],[2,15],[30,2]])
y_test = np.array(['动作片','爱情片','爱情片','动作片'])
y_pred = KNN.predict(x_test)
print(y_pred)
# 7、计算测试集准确率（accuracy）
KNN.score(x_test,y_test)

3、鸢尾花分类任务实战：

1、学习sklearn中自带的数据集调用方法
- 导入鸢尾花数据集：from sklearn.datasets import load_iris（同过tab键代码补齐的方法就能靠大概记忆输入此行代码）
- 使用数据集：load_iris()，如下所示为调用结果，结果为字典形式，其中data为数据键，对应的值为array二维数组（150行*4列），其中第一列特征为花萼的长度（sepal length (cm)）,第二列特征为花萼的宽度’sepal width (cm)‘,第三列特征为花瓣的长度’petal length (cm)’，第四列特征为花瓣的宽度 ‘petal width (cm)’。target键对应的为150组数据对应的分类标签，其中0代表’setosa’鸢尾花,1 代表’versicolor’鸢尾花, 2代表’virginica’鸢尾花。其他键表示的就是一些数据集的相关信息。
2、通过字典调用方式获取数据集中的相关数据，再根据pandas或者numpy处理数据。

# 获取输入数据
data = s_data['data']
pd.DataFrame(data)
# 获取输出数据
target = s_data['target']

3、将数据集划分为训练数据和测试数据（使用sklearn库中model_selection模块中的train_test_split函数）

# 导入sklearn自带的切分训练数据和测试数据的包
from sklearn.model_selection import train_test_split# 将数据切分为训练集输入、训练集输出、测试集输入、测试集输出
# test_size的参数如果是整数就会从所有数据中取多少条作为测试数据
# test_size的参数如果是0~1的小数就会从所有数据中按比例取多少条作为测试数据
# random_state参数可以让每次数据切分都一样
x_train, x_test, y_train, y_test = train_test_split(data,target,test_size=10)

4、导入KNN模型，训练数据，并测试分类效果

# 获取KNN算法
KNN = KNeighborsClassifier()
# 训练KNN算法
model = KNN.fit(x_train,y_train)
# 测试模型分类效果
model.predict(x_test)
print(y_test)
# 计算分类准确度
model.score(x_test,y_test)

4、补充

1、DataFrame数据可以直接用matplotlib中的plot画出数据的折线图，下面的例子是画出鸢尾花数据集的特征数据折线图

s_data = load_iris()
# 获取输入数据
data = s_data['data']
data = pd.DataFrame(data,columns=s_data['feature_names'])
# 用DataFrame直接画图查看数据集
data.plot()

在这里插入图片描述

2、绘制分类分界图：目的是将一个数据集中的数据放在一个坐标系中，然后让除了数据以外坐标系中其他区域也显示分类情况

# 1、先划分坐标系
x = np.linspace(data2.iloc[:, 0].min(), data2.iloc[:, 0].max(), 1000)   # 把x等分成1000份
y = np.linspace(data2.iloc[:, 1].min(), data2.iloc[:, 1].max(), 1000)   # 把y等分成1000份X, Y = np.meshgrid(x, y) # 按行复制y个x，按列复制x个y
XY = np.c_[X.ravel(), Y.ravel()] # 将x扁平化，将y扁平化，再一对一组合，最终XY形状为(1000000, 2)
# 用KNN模型预测
knn = KNeighborsClassifier()
knn.fit(data2, target)
y_pred = knn.predict(XY)
y_pred
# 分界图
plt.scatter(XY[:, 0], XY[:, 1], c=y_pred)

在这里插入图片描述
注意：上面绘图需要等待，可以使用matplotlib自带的绘图函数，绘图就不用等待了。
pcolormesh(): 画分界图，边界图
plt.pcolormesh(X, Y, y_pred.reshape(1000, 1000))

机器学习——KNN算法

1、：前提知识 KNN算法是机器学习算法中用于分类或者回归的算法，KNN全称为K nearest neighbour（又称为K-近邻算法） 原理：K-近邻算法采用测量不同特征值之间的距离的方法进行分类。优点：精度高缺点&…...

编程日记 2023/8/28 5:38:05

案例1 ：显示目录树 tree ┌──(root㉿kali)-[~] └─# tree --help usage: tree [-acdfghilnpqrstuvxACDFJQNSUX] [-L level [-R]] [-H baseHREF][-T title] [-o filename] [-P pattern] [-I pattern] [--gitignore][--gitfile[]file] [--matchdirs] [--metafirs…...

编程日记 2023/8/28 5:37:02

【分布式】Zookeeper

Java开发者视角下的Zookeeper—— 在什么场景下使用，怎么用可以参考：https://zhuanlan.zhihu.com/p/62526102 Zookeeper是什么？ ZooKeeper 是一个分布式的，开放源码的分布式应用程序协同服务。ZooKeeper 的设计目标是将那些复…...

编程日记 2023/8/28 5:36:01

ScheduleJS Crack,新的“信息列”水平滚动功能

ScheduleJS Crack,新的“信息列”水平滚动功能增加了对Angular 16的支持新的“信息列”水平滚动功能。新的“信息列”固定功能。添加了输入属性以处理组件模板中的偶数和奇数ScheduleRowPlainBackgroundColor以及CSS变量。改进了“信息列”和角度甘特组件的类型。 Schedul…...

编程日记 2023/8/28 5:34:59

curl封装

一。由于工作的原因，需要对curl做一些封装，附加上我们的证书，提供给第三个C和jAVA使用。二。头文件封闭四个函数，get，post，download，upload #ifndef CURLHTTP_H #define CURLHTTP_H#include …...

编程日记 2023/8/28 5:33:58

C语言数据类型和变量

C语言数据类型和变量数据类型分类内置类型【C语言本身就具有的类型】自定义类型【自己来创建类型】取值范围变量变量的创建变量创建的语法形式变量的分类全局变量局部变量栈区、堆区、静态区算术操作符赋值操作符连续赋值复合赋值符单目操作符：、--、、-强制类…...

编程日记 2023/8/28 5:32:55

分布式训练最小化部署docker swarm + docker-compose落地方案

目录背景： 前提条件： 一、docker环境初始化配置 1. 安装nvidia-docker2 2. 安装docker-compose工具 3. 获取GPU UUID 4. 修改docker runtime为nvidia，指定机器的UUID 二、docker-swarm 环境安装 1. 初始化swarm管理节点 2. 加入工…...

编程日记 2023/8/28 5:31:54

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动 0、背景1、基本环境2、开发环境编译Qt MySql数据库驱动2.1 依赖说明2.2 MySQL驱动编译过程 3、交叉编译Qt MySql数据库驱动3.1 依赖说明3.3.1 如何在交叉编译服务器上找到mysql.h及相关头文件3.3.2 如果…...

编程日记 2023/8/28 5:30:53

QT使用QXlsx实现数据验证与Excel公式操作 QT基础入门【Excel的操作】

准备环境:QT中使用QtXlsx库的三种方法 1、公式操作写单行公式 //右值初始化Format rAlign;rAlign.setHorizontalAlignment(Format::AlignRight);//左值初始化Format lAlign;lAlign.setHorizontalAlignment(Format::AlignLeft);xlsx.write("B3", 40, lAlign);xlsx.wr…...

编程日记 2023/8/28 5:29:51

renrenfast Vue2 打包发布

1、修改 static/config/index-prod.js 文件 // api接口请求地址 window.SITE_CONFIG[baseUrl] http://192.168.1.86:8080/renren-fast; /*** 生产环境*/ ;(function () {window.SITE_CONFIG {};// api接口请求地址window.SITE_CONFIG[baseUrl] http://192.16…...

编程日记 2023/8/28 5:28:49

NoSQL数据库介绍+Redis部署

目录一、NoSQL概述 1、数据的高并发读写 2、海量数据的高效率存储和访问 3、数据库的高扩展和高可用二、NoSQL的类别 1、键值存储数据库 2、列存储数据库 3、文档型数据库 4、图形化数据库三、分布式数据库中的CAP原理 1、传统的ACID 1）、A--原子性 …...

编程日记 2023/8/28 5:27:48

【mindspore学习】环境配置

本次实验搭配的环境是 CUDA 11.6 CUDNN v8.9.4 TensorRT-8.4.1.5 mindspore 2.1.0。 1、配置 Nvidia 显卡驱动如果原来的主机已经安装了 nvidia 驱动，为避免版本的冲突，建议先清除掉旧的 nvidia驱动 sudo apt-get --purge remove nvidia* sudo apt…...

编程日记 2023/8/28 5:26:46

基于shell脚本对aliyun npm仓库（https://packages.aliyun.com）登录认证

文章目录基于shell脚本对阿里云npm仓库（https://packages.aliyun.com）登录认证食用人群食用方式基于shell脚本对阿里云npm仓库（https://packages.aliyun.com）登录认证食用人群由于一些安全的原因，某些企业可能会…...

编程日记 2023/8/28 5:25:44

K8s Pod 安全认知：从openshift SCC 到 PSP 弃用以及现在的 PSA

写在前面简单整理，博文内容涉及： PSP 的由来PSA 的发展PSA 使用认知不涉及使用，用于了解 Pod 安全 API 资源理解不足小伙伴帮忙指正对每个人而言，真正的职责只有一个：找到自我。然后在心中坚守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是…...

编程日记 2023/8/28 5:24:43

提高企业会计效率，选择Manager for Mac(企业会计软件)

作为一家企业，良好的财务管理是保持业务运转的关键。而选择一款适合自己企业的会计软件，能够帮助提高会计效率、减少错误和节约时间。在众多的选择中，Manager for Mac(企业会计软件)是一款值得考虑的优秀软件。首先，Manager for…...

编程日记 2023/8/28 5:23:40

软考：中级软件设计师:信息系统的安全属性，对称加密和非对称加密，信息摘要，数字签名技术，数字信封与PGP

软考：中级软件设计师:信息系统的安全属性提示：系列被面试官问的问题，我自己当时不会，所以下来自己复盘一下，认真学习和总结，以应对未来更多的可能性关于互联网大厂的笔试面试，都是需要细心准…...

编程日记 2023/8/28 5:22:39

Vue3中reactive响应式失效的问题

情景阐述弹窗内部有一个挑选框，要通过请求接口获取挑选框下面可供选择的数据。这是一个很简单的情境，我立刻有了自己的思路。如果实现搜索，数据较少可以直接用elementplus自带的filter。如果数据较多，就需要传val，…...

编程日记 2023/8/28 5:21:38

lamp

LAMP 环境指的是在 Linux 操作系统中分别安装 Apache 网页服务器、MySQL 数据库服务器和 PHP 开发服务器，以及一些对应的扩展软件。AMP也支持win操作系统 （sccm 域升级版） LAMP架构是目前成熟的企业网站应用模式之一，指的是协同…...

编程日记 2023/8/28 5:20:37

LeetCode 周赛上分之旅 #42 当 LeetCode 考树上倍增，出题的趋势在变化吗

⭐️ 本文已收录到 AndroidFamily，技术和职场问题，请关注公众号 [彭旭锐] 和 BaguTree Pro 知识星球提问。学习数据结构与算法的关键在于掌握问题背后的算法思维框架，你的思考越抽象，它能覆盖的问题域就越广，理解难度…...

编程日记 2023/8/28 5:19:37

Qt 自定义菜单托盘菜单

托盘菜单实现：通过QSystemTrayIconQMenuQAction即可完美实现！ 实现方式：createActions用于创建菜单、菜单项,translateActions用于设置文本、实现多语化，translateAccount用于设置用户空间配额。 void TrayMenu::createActions(…...

编程日记 2023/8/28 5:18:36

绿盾加密环境下Keil安装避坑指南：从ST-LINK报错到安全模式切换

绿盾加密环境下Keil安装全流程解析：从驱动修复到开发环境优化在嵌入式开发领域，Keil MDK作为ARM架构微控制器的主流开发工具，其稳定性直接关系到项目进度和开发体验。但当企业级文档加密系统"绿盾"介入后，原本顺畅的开…...

编程新知 2026/3/30 0:55:46

MSE、MAE、Binary/Categorical Cross-Entropy、HingeLoss五种损失函数的典型应用场景

目录第一类：回归任务（预测具体数值）👓1. MSE (均方误差) —— 重罚离群点👓2. MAE (平均绝对误差) —— 鲁棒性强第二类：分类任务（判断属于哪一类）👓3. Binary Cross-Ent…...

编程新知 2026/3/29 23:55:23

GIL消失后的混沌现场：共享对象修改异常、原子性丢失、引用计数溢出，一文收全7种致命报错及防御代码模板

第一章：GIL消失后的并发危机全景图当CPython的全局解释器锁（GIL）真正消失，Python将首次具备原生、安全的多线程并行执行能力。但这并非一劳永逸的性能飞跃，而是一场系统级并发范式的重构风暴——内存模型、对象生命周期…...

编程新知 2026/3/29 23:51:20

Windows 10终极清理指南：5步让系统飞起来的完整教程

Windows 10终极清理指南：5步让系统飞起来的完整教程【免费下载链接】Debloat-Windows-10 A Collection of Scripts Which Disable / Remove Windows 10 Features and Apps 项目地址: https://gitcode.com/gh_mirrors/de/Debloat-Windows-10 你是否感觉Windo…...

编程新知 2026/3/29 21:26:23

Spring Authorization Server设备授权深度实践：从协议解析到企业落地

Spring Authorization Server设备授权深度实践：从协议解析到企业落地【免费下载链接】spring-authorization-server Spring Authorization Server 项目地址: https://gitcode.com/gh_mirrors/sp/spring-authorization-server 一、概念解析：为什么…...

编程新知 2026/3/29 21:04:13

如何将MacBook刘海变成你的私人文件中转站：NotchDrop完整使用指南

如何将MacBook刘海变成你的私人文件中转站：NotchDrop完整使用指南【免费下载链接】NotchDrop Use your MacBooks notch like Dynamic Island for temporary storing files and AirDrop 项目地址: https://gitcode.com/gh_mirrors/no/NotchDrop 你是否曾觉得…...

编程新知 2026/3/29 20:54:11

从理论到实践：LFM2.5-1.2B-Thinking-GGUF解析卷积神经网络原理的可视化展示

从理论到实践：LFM2.5-1.2B-Thinking-GGUF解析卷积神经网络原理的可视化展示 1. 开篇：当AI开始教AI 想象一下，一个能看懂卷积神经网络工作原理的AI，正在用人类能理解的方式向你解释它自己是如何工作的。这听起来有点科幻&#xf…...

编程新知 2026/3/29 19:21:36

ESP32音频播放终极指南：5步打造专业级音乐播放器

ESP32音频播放终极指南：5步打造专业级音乐播放器【免费下载链接】ESP32-audioI2S Play mp3 files from SD via I2S 项目地址: https://gitcode.com/gh_mirrors/es/ESP32-audioI2S ESP32-audioI2S是一个功能强大的开源音频库，专为ESP32、ESP32-S3…...

编程新知 2026/3/29 18:05:17

大模型入门学习教程（非常详细）非常详细收藏我这一篇就够了！大模型教程

本文系统介绍了LLM（大型语言模型）的基础知识，包括机器学习的数学基础、Python编程及其在数据科学中的应用、神经网络原理等。文章深入剖析了LLM科学家和工程师的角色，涵盖了大型语言模型架构、指令数据集构建、预训练模型、监督微…...

编程新知 2026/3/29 17:20:52

YOLO X Layout与Python结合实战：自动化文档结构解析应用

YOLO X Layout与Python结合实战：自动化文档结构解析应用 1. 项目背景与价值在日常工作中，我们经常会遇到大量需要处理的文档——扫描的合同、电子发票、研究报告、技术文档等等。传统的人工处理方式不仅效率低下，还容易出错。想象一下&…...

编程新知 2026/3/29 16:58:33

机器学习——KNN算法

1、：前提知识

2、案例：

3、鸢尾花分类任务实战：

4、补充

相关文章：

机器学习——KNN算法

Kali 软件管理测试案例

【分布式】Zookeeper

ScheduleJS Crack,新的“信息列”水平滚动功能

curl封装

C语言数据类型和变量

分布式训练最小化部署docker swarm + docker-compose落地方案

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动

QT使用QXlsx实现数据验证与Excel公式操作 QT基础入门【Excel的操作】

renrenfast Vue2 打包发布

NoSQL数据库介绍+Redis部署

【mindspore学习】环境配置

基于shell脚本对aliyun npm仓库（https://packages.aliyun.com）登录认证

K8s Pod 安全认知：从openshift SCC 到 PSP 弃用以及现在的 PSA

提高企业会计效率，选择Manager for Mac(企业会计软件)

软考：中级软件设计师:信息系统的安全属性，对称加密和非对称加密，信息摘要，数字签名技术，数字信封与PGP

Vue3中reactive响应式失效的问题

lamp

LeetCode 周赛上分之旅 #42 当 LeetCode 考树上倍增，出题的趋势在变化吗

Qt 自定义菜单托盘菜单

绿盾加密环境下Keil安装避坑指南：从ST-LINK报错到安全模式切换

MSE、MAE、Binary/Categorical Cross-Entropy、HingeLoss五种损失函数的典型应用场景

GIL消失后的混沌现场：共享对象修改异常、原子性丢失、引用计数溢出，一文收全7种致命报错及防御代码模板

Windows 10终极清理指南：5步让系统飞起来的完整教程

Spring Authorization Server设备授权深度实践：从协议解析到企业落地

如何将MacBook刘海变成你的私人文件中转站：NotchDrop完整使用指南

从理论到实践：LFM2.5-1.2B-Thinking-GGUF解析卷积神经网络原理的可视化展示

ESP32音频播放终极指南：5步打造专业级音乐播放器

大模型入门学习教程（非常详细）非常详细收藏我这一篇就够了！大模型教程

YOLO X Layout与Python结合实战：自动化文档结构解析应用