机器学习KNN算法全解析:从原理到实战
大家好!今天我们来聊聊机器学习中的"懒人算法"——KNN(K-Nearest Neighbors,K近邻)算法。这个算法就像个"墙头草",它不学习模型参数,而是直接根据邻居的"投票"来做决策,是不是很有趣?让我们一起来揭开它的神秘面纱吧!
📚 一、算法简介:近朱者赤,近墨者黑
KNN(K-Nearest Neighbors,K最近邻)是最直观的机器学习算法之一,核心思想就是“物以类聚”:一个样本的类别由其最近的K个邻居决定。比如要判断新同学是“学霸”还是“学渣”,只需看他最常一起玩的K个朋友属于哪类。
算法流程:
- 算距离:计算测试样本与所有训练样本的距离(常用欧氏距离📏);
- 找邻居:选取距离最小的K个样本;
- 数票数:统计K个邻居中各类别的数量;
- 做决策:将测试样本归为票数最多的类别(分类)或邻居的平均值(回归)
💡举个例子:
图中绿点待分类,选K=3时,附近2个▲1个● → 归为▲;若K=5,附近3个●2个▲ → 归为●。由此看出K值不同导致分类结果变化。
🌟二、 算法特点:简单粗暴但有效
KNN算法有以下显著特点:
优点 | 缺点 |
---|---|
✅ 理论简单,无需训练(惰性学习) | ❌ 计算量大,样本多时慢如蜗牛🐌 |
✅ 天然支持多分类问题 | ❌ 样本不平衡时,大类别易“霸凌”小类 |
✅ 对异常值不敏感 | ❌ 需要确定合适的K值,特征重要性无区分,所有特征平等对待 |
✅ 无需数据分布假设(非参数模型) | ❌ 计算复杂度高,需要大量内存存储全部数据 |
🔍 三、K值的选择:艺术与科学的结合
K值的选择对KNN的性能影响很大:
- K太小:模型复杂,容易过拟合(对噪声敏感),如:邻居中偶然混入一个“学渣”,就把学霸误判了
- K太大:模型简单,容易欠拟合(边界模糊),如:参考全校学生成绩,本地化信息丢失
选择K值的常用方法:
- 经验法:通常取√N(N为样本数)的整数部分
- 交叉验证:尝试不同的K值,选择验证集上表现最好的
- 肘部法则:观察误差随K值变化的曲线,选择"拐点"
🛠️ 四、应用场景:哪里需要"找朋友"
KNN算法在以下场景中表现出色:
- 推荐系统:根据用户相似度推荐商品/电影
- 图像识别:手写数字识别(如MNIST数据集)、人脸识别,通过像素距离找相似图片
- 金融风控:信用卡欺诈检测
- 文本分类:垃圾邮件过滤
- 医疗诊断:根据症状相似度辅助诊断
- 司法辅助:案件推送,相似案情判决参考
💻 五、代码实战:手把手教你用Python实现KNN
让我们用Python的scikit-learn库来实现一个简单的KNN分类器:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report# 1. 加载数据集(使用鸢尾花数据集)
iris = datasets.load_iris()
X = iris.data # 特征
y = iris.target # 标签# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 创建KNN分类器(这里K=3)
knn = KNeighborsClassifier(n_neighbors=3)# 4. 训练模型(KNN没有显式的训练过程,这里只是存储数据)
knn.fit(X_train, y_train)# 5. 预测
y_pred = knn.predict(X_test)# 6. 评估模型
print("准确率:", accuracy_score(y_test, y_pred))
print("\n分类报告:\n", classification_report(y_test, y_pred))# 可视化决策边界(简化版,仅适用于2D特征)
def plot_decision_boundaries(X, y, model, title):# 创建网格点x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))# 预测每个网格点的类别Z = model.predict(np.c_[xx.ravel(), yy.ravel()])Z = Z.reshape(xx.shape)# 绘制决策边界和数据点plt.contourf(xx, yy, Z, alpha=0.4)plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')plt.title(title)plt.show()# 由于鸢尾花数据集有4个特征,我们选择前两个特征进行可视化
plot_decision_boundaries(X_train[:, :2], y_train, knn, "KNN决策边界 (K=3)")
代码说明:
- 我们使用了经典的鸢尾花数据集
- 创建了一个K=3的KNN分类器
- 计算了模型在测试集上的准确率
- 绘制了决策边界(虽然原始数据是4维的,我们只用了前两维可视化)
📌六、 API详解:scikit-learn中的KNN
scikit-learn提供了非常方便的KNN实现:
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor# 分类器
knn_classifier = KNeighborsClassifier(n_neighbors=5, # K值weights='uniform', # 权重('uniform'或'distance')algorithm='auto', # 计算最近邻的算法p=2, # 距离度量参数(Minkowski距离的p值)metric='minkowski' # 距离度量
)# 回归器
knn_regressor = KNeighborsRegressor(n_neighbors=5,weights='uniform',algorithm='auto',p=2,metric='minkowski'
)
常用参数:
n_neighbors
:邻居数量Kweights
:投票权重('uniform'表示等权重,'distance'表示距离越近权重越大)algorithm
:计算最近邻的算法('auto'、'ball_tree'、'kd_tree'、'brute')p
:距离度量参数(p=1为曼哈顿距离,p=2为欧氏距离)
💡 七、优化技巧:让KNN更强大
-
特征缩放:KNN对特征尺度敏感,建议标准化数据
from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)
-
距离度量选择:根据数据特点选择合适的距离度量
-
降维处理:对高维数据使用PCA等方法降维
-
KD树/球树:对于高维数据,使用KD树或球树加速搜索
🎯 八、总结:KNN的魅力与局限
KNN算法就像一个聪明的邻居顾问,它不建立复杂的模型,而是直接参考周围人的意见。虽然简单,但在很多场景下都能表现出色。不过,它也有自己的局限性,特别是在处理大规模或高维数据时。
适用场景:
- 数据量不大
- 特征维度不高
- 需要快速原型开发
不适用场景:
- 数据量非常大
- 特征维度很高
- 需要实时预测
希望这篇文章能帮助你理解KNN算法的精髓!下次当你需要解决分类或回归问题时,不妨考虑一下这个"懒惰但聪明"的算法吧!😉
📌 关注我,获取更多机器学习干货!如果你有任何问题或想看的算法,欢迎在评论区留言哦!👇
拓展阅读
1、机器学习大揭秘:从原理到实战,一篇搞定!
2、机器学习算法大分类,一篇读懂监督、无监督、半监督和强化学习!
3、深度学习数据集探秘:从炼丹到实战的进阶之路
相关文章:

机器学习KNN算法全解析:从原理到实战
大家好!今天我们来聊聊机器学习中的"懒人算法"——KNN(K-Nearest Neighbors,K近邻)算法。这个算法就像个"墙头草",它不学习模型参数,而是直接根据邻居的"投票"来做决策&…...

【QT】自定义QWidget标题栏,可拖拽(拖拽时窗体变为normal大小),可最小/大化、关闭(图文详情)
目录 0.背景 1.详细实现 思路简介 .h文件 .cpp文件 0.背景 Qt Linux;项目遇到问题,解决后特此记录 项目需要,个性化的标题栏(是个widget),在传统的三个按钮(最大化、最小化、关闭…...

FPGA定点和浮点数学运算-实例对比
在创建 RTL 示例时,经常使用 VHDL 2008 附带的 VHDL 包。它提供了出色的功能,可以高效地处理定点数,当然,它们也是可综合的。该包的一些优点包括: 有符号和无符号(后缀和后缀)定点向量。轻松将定…...
MySQL Binlog 数据恢复全指南
MySQL Binlog 数据恢复全指南 一、Binlog 核心概念 1. 什么是 Binlog? Binlog(二进制日志)是 MySQL 记录所有修改数据的 SQL 语句的日志文件,采用二进制格式存储。它是 MySQL 最重要的日志之一,具有三大核心功能&am…...
python版若依框架开发:后端开发规范
python版若依框架开发 从0起步,扬帆起航。 python版若依部署代码生成指南,迅速落地CURD!项目结构解析前端开发规范后端开发规范文章目录 python版若依框架开发1.启动命令2.配置⽂件3.上传配置1.启动命令 本项⽬⾃定义了两个启动命令 pyhton app.py --env=devpython app.p…...

Linux编程:2、进程基础知识
一、进程基本概念 1、进程与程序的区别 程序:静态的可执行文件(如电脑中的vs2022安装程序)。进程:程序的动态执行过程(如启动后的vs2022实例),是操作系统分配资源的单位(如 CPU 时…...
时序数据库IoTDB与EdgeX Foundry集成适配服务介绍
一、背景介绍 EdgeX Foundry:由Linux基金会运维的开放源码边缘计算软件框架,自2017年开源后广泛应用于全球各行业场景。VMware自2018年起在中国社区推广EdgeX技术,拓展生态,并持续贡献代码。IoTDB:由Apache基…...
Android第十二次面试-多线程和字符串算法总结
多线程的创建与常见使用方法 一、多线程创建方式 1. 继承Thread类 class MyThread extends Thread {Overridepublic void run() {// 线程执行逻辑System.out.println(Thread.currentThread().getName() " is running");} }// 使用 MyThread thread new …...
ES6——数组扩展之Set数组
在ES6(ECMAScript 2015)中,JavaScript的Set对象提供了一种存储任何值唯一性的方式,类似于数组但又不需要索引访问。这对于需要确保元素唯一性的场景非常有用。Set对象本身并不直接提供数组那样的方法来操作数据(例如ma…...

Cursor Rules 使用
前言 最近在使用 Cursor 进行编程辅助时,发现 AI 生成的代码风格和当前的代码风格大相径庭。而且有时它会输出很奇怪的代码,总是不符合预期。 遂引出本篇,介绍一下 Rules ,它就可以做一些规范约束之类的事情。 什么是 Cursor R…...

服务器数据恢复—服务器raid5阵列崩溃如何恢复数据?
服务器数据恢复环境&故障: 某品牌型号为X3850服务器上有一组由14块数据盘和1块热备盘组建的raid5磁盘阵列。 服务器在正常使用过程中突然崩溃,管理员查看raid5阵列故障情况的时发现磁盘阵列中有2块硬盘掉线,但是热备盘没有启用。 服务器数…...

Go语言堆内存管理
Go堆内存管理 1. Go内存模型层级结构 Golang内存管理模型与TCMalloc的设计极其相似。基本轮廓和概念也几乎相同,只是一些规则和流程存在差异。 2. Go内存管理的基本概念 Go内存管理的许多概念在TCMalloc中已经有了,含义是相同的,只是名字有…...

【DAY41】简单CNN
内容来自浙大疏锦行python打卡训练营 浙大疏锦行 知识点: 数据增强卷积神经网络定义的写法batch归一化:调整一个批次的分布,常用与图像数据特征图:只有卷积操作输出的才叫特征图调度器:直接修改基础学习率 卷积操作常…...
Rust 学习笔记:使用自定义命令扩展 Cargo
Rust 学习笔记:使用自定义命令扩展 Cargo Rust 学习笔记:使用自定义命令扩展 Cargo Rust 学习笔记:使用自定义命令扩展 Cargo Cargo 支持通过 $PATH 中的 cargo-something 形式的二进制文件拓展子命令,而无需修改 Cargo 本身。 …...
LeetCode 08.06 面试题 汉诺塔 (Java)
经典递归解决汉诺塔问题:清晰的三步移动策略 问题描述 在汉诺塔问题中,有 3 根柱子和 N 个大小不同的盘子,盘子初始按升序堆叠在第一根柱子上(最小的在顶部)。目标是将所有盘子移动到第三根柱子上,并满足…...

使用MinIO搭建自己的分布式文件存储
目录 引言: 一.什么是 MinIO ? 二.MinIO 的安装与部署: 三.Spring Cloud 集成 MinIO: 1.前提准备: (1)安装依赖: (2)配置MinIO连接: &…...
单元测试与QTestLib框架使用
一.单元测试的意义 在软件开发中,单元测试是指对软件中最小可测试单元(通常是函数、类的方法)进行隔离的、可重复的验证。进行单元测试具有以下重要意义: 1.提升代码质量与可靠性: 早期错误检测: 在开发…...
java面试场景题:QPS 短链系统怎么设计
以下是对文章的润色版本: 这道场景设计题,初看似乎业务简单,实则覆盖的知识点极为丰富: 高并发与高性能分布式 ID 生成机制;Redis Bloom Filter——高并发、低内存损耗的过滤组件知识;分库、分表海量数据存…...
java面试场景提题:
以下是润色后的文章,结构更清晰,语言更流畅,同时保留了技术细节: 应对百倍QPS增长的系统设计策略 整体架构设计思路 面对突发性百倍QPS增长,系统设计需从硬件、架构、代码、数据四个维度协同优化: 硬件层…...

K7 系列各种PCIE IP核的对比
上面三个IP 有什么区别,什么时候用呢? 7 series Integrated Block for PCIE AXI Memory Mapped to PCI Express DMA subsystem for PCI Express 特点 这是 Kintex-7 内置的 硬核 PCIe 模块。部分事务层也集成在里面,使用标准的PCIE 基本没…...

natapp 内网穿透失败
连不上网络错误调试排查详解 - NATAPP-内网穿透 基于ngrok的国内高速内网映射工具 如何将DNS服务器修改为114.114.114.114_百度知道 连不上/错误信息等问题解决汇总 - NATAPP-内网穿透 基于ngrok的国内高速内网映射工具 nslookup auth.natapp.cnping auth.natapp.cn...

深入解析CI/CD开发流程
引言:主播最近实习的时候发现部门里面使用的是CI/CD这样的集成开发部署,但是自己不是太了解什么意思,所以就自己查了一下ci/cd相关的资料,整理分享了一下 一、CI/CD CI/CD是持续集成和持续交付部署的缩写,旨在简化并…...

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试
docker运行Ktransformers部署Qwen3MOE模型实战及 性能测试 最开始拉取ktransformers:v0.3.1-AVX512版本,发现无论如何都启动不了大模型,后来发现是cpu不支持avx512指令集。 由于本地cpu不支持amx指令集,因此下载avx2版本镜像: …...

应用分享 | 精准生成和时序控制!AWG在确定性三量子比特纠缠光子源中的应用
在量子技术飞速发展的今天,实现高效稳定的量子态操控是推动量子计算、量子通信等领域迈向实用化的关键。任意波形发生器(AWG)作为精准信号控制的核心设备,在量子实验中发挥着不可或缺的作用。丹麦哥本哈根大学的研究团队基于单个量…...

相机--相机标定实操
教程 camera_calibration移动画面示例 usb_cam使用介绍和下载 标定流程 单目相机标定 我使用的是USB相机,所以直接使用ros的usb_cam功能包驱动相机闭关获取实时图像,然后用ros的camera_calibration标定相机。 1,下载usb_cam和camera_calibration: …...
深入理解汇编语言中的顺序与分支结构
本文将结合Visual Studio环境配置、顺序结构编程和分支结构实现,全面解析汇编语言中的核心编程概念。通过实际案例演示无符号/有符号数处理、分段函数实现和逻辑表达式短路计算等关键技术。 一、汇编环境配置回顾(Win32MASM) 在Visual Studi…...

DAY43 复习日
浙大疏锦行-CSDN博客 kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 进阶:把项目拆分成多个文件 src/config.py: 用于存放项目配置,例如文件路径、学习率、批次大小等。 # src/config.py# Paths DATA_DIR "data…...
【仿生机器人】仿生机器人智能架构:从感知到个性的完整设计
仿生机器人智能架构:从感知到个性的完整设计 仿生机器人不仅需要模拟人类的外表,更需要具备类人的认知、情感和个性特征。本研究提出了一个综合性的软件架构,实现了从环境感知到情感生成、从实时交互到人格塑造的完整智能系统。该架构突破了…...
【业务框架】3C-相机-Cinemachine
概述 插件,做相机需求,等于相机老师傅多年经验总结的工具 Feature Transform:略Control Camera:控制相机参数Noise:增加随机性Blend:CameraBrain的混合列表指定一个虚拟相机到另一个相机的过渡ÿ…...

【Auto.js例程】华为备忘录导出到其他手机
目录 问题描述方法步骤1.安装下载Visual Studio Code2.安装扩展3.找到Auto.js插件,并安装插件4.启动服务器5.连接手机6.撰写脚本并运行7.本文实现功能的代码8.启动手机上的换机软件 问题描述 问题背景:华为手机换成一加手机,华为备忘录无法批…...