当前位置: 首页 > article >正文

【机器学习基础】机器学习入门核心算法:K-近邻算法(K-Nearest Neighbors, KNN)

在这里插入图片描述

机器学习入门核心算法:K-近邻算法(K-Nearest Neighbors, KNN)

  • 一、算法逻辑
      • 1.1 基本概念
      • 1.2 关键要素
        • 距离度量
        • K值选择
  • 二、算法原理与数学推导
      • 2.1 分类任务
      • 2.2 回归任务
      • 2.3 时间复杂度分析
  • 三、模型评估
      • 3.1 评估指标
      • 3.2 交叉验证调参
  • 四、应用案例
      • 4.1 手写数字识别
      • 4.2 推荐系统
  • 五、经典面试题
      • 问题1:KNN的主要优缺点?
      • 问题2:如何处理高维数据?
      • 问题3:KNN与K-Means的区别?
  • 六、高级优化技术
      • 6.1 数据结构优化
      • 6.2 近似最近邻(ANN)
  • 七、最佳实践指南
      • 7.1 参数调优建议
      • 7.2 特征处理要点
  • 总结与展望

一、算法逻辑

1.1 基本概念

K-近邻算法(KNN)是一种基于实例的监督学习算法,其核心思想是**“物以类聚”**。算法特点包括:

  • 懒惰学习(Lazy Learning):没有显式的训练过程,直接存储全部训练数据
  • 非参数化:不假设数据分布形式
  • 局部近似:仅依赖邻近样本进行预测

工作原理
给定新样本时,在训练集中查找距离最近的K个样本,通过这K个邻居的标签进行多数表决(分类)或均值计算(回归)。

1.2 关键要素

距离度量

常用距离计算公式:

  1. 欧氏距离(默认选择):
    d ( x i , x j ) = ∑ k = 1 n ( x i k − x j k ) 2 d(\boldsymbol{x}_i, \boldsymbol{x}_j) = \sqrt{\sum_{k=1}^n (x_{ik} - x_{jk})^2} d(xi,xj)=k=1n(xikxjk)2
  2. 曼哈顿距离
    d ( x i , x j ) = ∑ k = 1 n ∣ x i k − x j k ∣ d(\boldsymbol{x}_i, \boldsymbol{x}_j) = \sum_{k=1}^n |x_{ik} - x_{jk}| d(xi,xj)=k=1nxikxjk
  3. 闵可夫斯基距离(通用形式):
    d ( x i , x j ) = ( ∑ k = 1 n ∣ x i k − x j k ∣ p ) 1 / p d(\boldsymbol{x}_i, \boldsymbol{x}_j) = \left( \sum_{k=1}^n |x_{ik} - x_{jk}|^p \right)^{1/p} d(xi,xj)=(k=1nxikxjkp)1/p
K值选择
  • K=1:最近邻算法,决策边界不规则,容易过拟合
  • K过大:决策边界平滑,可能欠拟合

二、算法原理与数学推导

2.1 分类任务

多数表决规则
y ^ = arg ⁡ max ⁡ c ∑ x i ∈ N k ( x ) I ( y i = c ) \hat{y} = \arg\max_{c} \sum_{\boldsymbol{x}_i \in N_k(\boldsymbol{x})} I(y_i = c) y^=argcmaxxiNk(x)I(yi=c)
其中:

  • N k ( x ) N_k(\boldsymbol{x}) Nk(x):样本 x \boldsymbol{x} x的K个最近邻
  • I ( ⋅ ) I(\cdot) I():指示函数,条件满足时取1否则0

加权投票改进
y ^ = arg ⁡ max ⁡ c ∑ x i ∈ N k ( x ) w i I ( y i = c ) \hat{y} = \arg\max_{c} \sum_{\boldsymbol{x}_i \in N_k(\boldsymbol{x})} w_i I(y_i = c) y^=argcmaxxiNk(x)wiI(yi=c)
权重计算:
w i = 1 d ( x , x i ) + ϵ w_i = \frac{1}{d(\boldsymbol{x}, \boldsymbol{x}_i) + \epsilon} wi=d(x,xi)+ϵ1
ϵ \epsilon ϵ为防止除零的小常数)

2.2 回归任务

均值预测
y ^ = 1 k ∑ x i ∈ N k ( x ) y i \hat{y} = \frac{1}{k} \sum_{\boldsymbol{x}_i \in N_k(\boldsymbol{x})} y_i y^=k1xiNk(x)yi

加权回归
y ^ = ∑ x i ∈ N k ( x ) w i y i ∑ w i \hat{y} = \frac{\sum_{\boldsymbol{x}_i \in N_k(\boldsymbol{x})} w_i y_i}{\sum w_i} y^=wixiNk(x)wiyi

2.3 时间复杂度分析

阶段时间复杂度说明
训练阶段O(1)仅存储数据
预测阶段O(nd + nlogk)d为维度,n为样本数
优化后O(mlog n)使用KD树/球树结构

三、模型评估

3.1 评估指标

任务类型常用指标公式
分类准确率、F1 Score A c c u r a c y = T P + T N N Accuracy = \frac{TP+TN}{N} Accuracy=NTP+TN
回归MSE、MAE M S E = 1 n ∑ ( y i − y ^ i ) 2 MSE = \frac{1}{n}\sum(y_i-\hat{y}_i)^2 MSE=n1(yiy^i)2

3.2 交叉验证调参

K值选择方法

  1. 肘部法则(Elbow Method):绘制不同K值的误差曲线
  2. 网格搜索:结合交叉验证选择最优K值

代码示例

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCVparams = {'n_neighbors': [3,5,7,9], 'weights': ['uniform', 'distance']}
grid = GridSearchCV(KNeighborsClassifier(), params, cv=5)
grid.fit(X_train, y_train)

四、应用案例

4.1 手写数字识别

数据集:MNIST(60,000张28x28灰度图)
关键步骤

  1. 数据标准化:像素值缩放到[0,1]
  2. 降维处理:使用PCA保留95%方差
  3. 模型配置:K=5,加权距离

性能表现

  • 测试集准确率:97.1%
  • 推理速度:200样本/秒(使用KD树加速)

4.2 推荐系统

应用场景:电影推荐
特征工程

  • 用户评分矩阵
  • 电影类型标签(One-Hot编码)
  • 用户行为时序特征

相似度计算
Similarity ( u , v ) = ∑ i ∈ I u v ( r u i − r ˉ u ) ( r v i − r ˉ v ) ∑ i ∈ I u v ( r u i − r ˉ u ) 2 ∑ i ∈ I u v ( r v i − r ˉ v ) 2 \text{Similarity}(u,v) = \frac{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)(r_{vi} - \bar{r}_v)}{\sqrt{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)^2} \sqrt{\sum_{i \in I_{uv}}(r_{vi} - \bar{r}_v)^2}} Similarity(u,v)=iIuv(ruirˉu)2 iIuv(rvirˉv)2 iIuv(ruirˉu)(rvirˉv)

推荐流程

  1. 查找最相似K个用户
  2. 聚合这些用户的高评分电影
  3. 过滤已观看内容生成推荐列表

五、经典面试题

问题1:KNN的主要优缺点?

优点分析

  • 原理直观,实现简单
  • 无需训练阶段,适合动态数据集
  • 天然支持多分类任务

缺点分析

  • 计算复杂度高(预测阶段需全量计算)
  • 对高维数据敏感(维度灾难)
  • 需要特征标准化处理

问题2:如何处理高维数据?

解决方案

  1. 特征选择:使用互信息、卡方检验等方法筛选重要特征
  2. 降维技术:PCA、t-SNE等
  3. 距离度量改进:使用余弦相似度替代欧氏距离
  4. 数据标准化:Min-Max或Z-Score标准化

问题3:KNN与K-Means的区别?

本质区别对比

维度KNNK-Means
算法类型监督学习无监督聚类
目标分类/回归数据分组
距离计算测试样本与所有训练样本计算样本与聚类中心计算
K值含义最近邻数量聚类中心数量

六、高级优化技术

6.1 数据结构优化

KD树构建

  1. 选择方差最大的维度进行划分
  2. 以中位数作为切分点
  3. 递归构建左右子树

球树(Ball Tree)

  • 将数据点组织成嵌套超球体
  • 适合高维数据,比KD树更高效

6.2 近似最近邻(ANN)

大规模数据加速方法

  1. 位置敏感哈希(LSH):通过哈希函数将相似数据映射到相同桶
  2. 层次导航小世界(HNSW):基于图结构的快速检索
  3. 乘积量化(PQ):将高维向量分解为子空间量化

七、最佳实践指南

7.1 参数调优建议

参数推荐值作用说明
n_neighbors3-15(奇数为佳)控制模型复杂度
weightsdistance加权近邻投票
algorithmauto自动选择最优数据结构
leaf_size30-50控制树结构的存储效率

7.2 特征处理要点

  • 标准化:必须对数值特征进行标准化
  • 类别特征:使用嵌入(Embedding)代替One-Hot
  • 缺失值:使用KNNImputer进行填充

总结与展望

KNN算法凭借其简单直观的特性,在模式识别、推荐系统等领域持续发挥重要作用。未来发展方向包括:

  1. 分布式计算:使用Spark MLlib加速大规模KNN
  2. 深度学习结合:用神经网络学习更好的距离度量
  3. 硬件加速:利用GPU实现实时KNN计算

相关文章:

【机器学习基础】机器学习入门核心算法:K-近邻算法(K-Nearest Neighbors, KNN)

机器学习入门核心算法:K-近邻算法(K-Nearest Neighbors, KNN) 一、算法逻辑1.1 基本概念1.2 关键要素距离度量K值选择 二、算法原理与数学推导2.1 分类任务2.2 回归任务2.3 时间复杂度分析 三、模型评估3.1 评估指标3.2 交叉验证调参 四、应用…...

FastMoss 国际电商Tiktok数据分析 JS 逆向 | MD5加密

1.目标 目标网址:https://www.fastmoss.com/zh/e-commerce/saleslist 切换周榜出现目标请求 只有请求头fm-sign签名加密 2.逆向分析 直接搜fm-sign 可以看到 i["fm-sign"] A 进入encryptParams方法 里面有个S()方法加密,是MD5加密 3.代…...

Redis分布式缓存核心架构全解析:持久化、高可用与分片实战

一、持久化机制:数据安全双引擎 1.1 RDB与AOF的架构设计 Redis通过RDB(快照持久化)和AOF(日志持久化)两大机制实现数据持久化。 • RDB架构:采用COW(写时复制)技术,主进程…...

【Linux】基础开发工具(下)

文章目录 一、自动化构建工具1. 什么是 make 和 Makefile?2. 如何自动化构建可执行程序?3. Makefile 的核心思想4. 如何清理可执行文件?5. make 的工作原理5.1 make 的执行顺序5.2 为什么 make 要检查文件是否更新?5.2.1 避免重复…...

Python爬虫实战:研究Portia框架相关技术

1. 引言 1.1 研究背景与意义 在大数据时代,网络数据已成为企业决策、学术研究和社会分析的重要资源。据 Statista 统计,2025 年全球数据总量将达到 175ZB,其中 80% 以上来自非结构化网络内容。如何高效获取并结构化这些数据,成为数据科学领域的关键挑战。 传统爬虫开发需…...

chrome打不开axure设计的软件产品原型问题解决办法

1、打开原型文件夹,进入到其中的如下目录中:resources->chrome->axure-chrome-extension.crx,找到 Axure RP Extension for Chrome插件。 2、axure-chrome-extension.crx文件修改扩展名.rar,并解压到文件夹 axure-chrome-ex…...

达梦数据库-学习-23-获取执行计划的N种方法

目录 一、环境信息 二、说点什么 三、测试数据生成 四、测试语句 五、获取执行计划方法 1、EXPLAIN (1)样例 (2)优势 (3)劣势 2、ET (1)开启参数 (2&#xff…...

【数据结构】树形结构--二叉树

【数据结构】树形结构--二叉树 一.知识补充1.什么是树2.树的常见概念 二.二叉树(Binary Tree)1.二叉树的定义2.二叉树的分类3.二叉树的性质 三.二叉树的实现1.二叉树的存储2.二叉树的遍历①.先序遍历②.中序遍历③.后序遍历④.层序遍历 一.知识补充 1.什…...

Baklib构建企业CMS高效协作与安全管控体系

企业CMS高效协作体系构建 基于智能工作流引擎的设计逻辑,现代企业内容管理系统通过预设多节点审核路径与自动化任务分配机制,有效串联市场、技术、法务等跨部门协作链路。系统支持多人同时编辑与版本追溯功能,结合细粒度权限管控模块&#x…...

深入理解 JDK、JRE 和 JVM 的区别

在 Java 中,JDK、JRE 和 JVM 是非常重要的概念,它们各自扮演着不同的角色,却又紧密相连。今天,就让我们来详细探讨一下它们之间的区别。 一、JVM JVM 即 Java 虚拟机,它是整个 Java 技术体系的核心。JVM 提供了 Java…...

LSTM 与 TimesNet的时序分析对比解析

前言 Hi,我是GISerLiu🙂, 这篇文章是参加2025年5月Datawhale学习赛的打卡文章!💡 本文将深入探讨在自定义时序数据集上进行下游分类任务的两种主流分析方法。一种是传统的“先插补后分析”策略,另一种是采用先进的端到…...

图论学习笔记 4 - 仙人掌图

先扔张图: 为了提前了解我们采用的方法,请先阅读《图论学习笔记 3》。 仙人掌图的定义:一个连通图,且每条边只出现在至多一个环中。 这个图就是仙人掌图。 这个图也是仙人掌图。 而这个图就不是仙人掌图了。 很容易发现&#xf…...

语音识别算法的性能要求一般是多少

语音识别算法的性能要求因应用场景和实际需求而异,但以下几个核心指标是通用的参考标准。以下是具体说明: 1. 准确率(Accuracy) 语音识别的核心性能指标通常是词错误率(WER, Word Error Rate)和字符错误率…...

百度ocr的简单封装

百度ocr地址 以下代码为对百度ocr的简单封装,实际使用时推荐使用baidu-aip 百度通用ocr import base64 from enum import Enum, unique import requests import logging as logunique class OcrType(Enum):# 标准版STANDARD_BASIC "https://aip.baidubce.com/rest/2.0…...

华为高斯数据库(GaussDB)深度解析:国产分布式数据库的旗舰之作

高斯数据库介绍 一、高斯数据库概述 GaussDB是华为自主研发的新一代分布式关系型数据库,专为企业核心系统设计。它支持HTAP(混合事务与分析处理),兼具强大的事务处理与数据分析能力,是国产数据库替代的重要选择。 产…...

LWIP 中,lwip_shutdown 和 lwip_close 区别

实际开发中,建议对 TCP 连接按以下顺序操作以确保可靠性: lwip_shutdown(newfd, SHUT_RDWR); // 关闭双向通信 lwip_close(newfd); // 释放资源...

xml双引号可以不转义

最近在开发soap方面的协议&#xff0c;soap这玩意&#xff0c;就避免不了XML&#xff0c;这里我用到了pguixml库。 输入了这个XML后&#xff0c;发现<和>都被转义&#xff0c;但是""没有被转义&#xff0c;很是奇怪啊。毕竟去网上随便一搜转义字符&#xff0c…...

互联网大厂Java面试:从Spring到微服务的挑战

文章简介 在这篇文章中&#xff0c;我们将模拟一场互联网大厂的Java面试&#xff0c;场景设置为企业协同与SaaS。面试官提出了一系列技术问题&#xff0c;涵盖了Java核心语言、Spring框架、微服务架构等技术点&#xff0c;并结合实际业务场景进行循序渐进的提问。最后&#xf…...

兰亭妙微 | 图标设计公司 | UI设计案例复盘

在「33」「312」新高考模式下&#xff0c;选科决策成为高中生和家长的「头等大事」。兰亭妙微公司受委托优化高考选科决策平台个人诊断报告界面&#xff0c;核心挑战是&#xff1a;如何将复杂的测评数据&#xff08;如学习能力倾向、学科报考机会、职业兴趣等&#xff09;转化为…...

OpenCV视觉图片调整:从基础到实战的技术指南

引言:数字图像处理的现代意义与OpenCV深度应用 在人工智能与计算机视觉蓬勃发展的今天,图像处理技术已成为多个高科技领域的核心支撑。根据市场研究机构Grand View Research的数据,全球计算机视觉市场规模预计将从2022年的125亿美元增长到2030年的253亿美元,年复合增长率达…...

C#日期和时间:DateTime转字符串全面指南

C#日期和时间&#xff1a;DateTime转字符串全面指南 在 C# 开发中&#xff0c;DateTime类型的时间格式化是高频操作场景。无论是日志记录、数据持久化&#xff0c;还是接口数据交互&#xff0c;合理的时间字符串格式都能显著提升系统的可读性和兼容性。本文将通过 20 实战示例…...

手机收不到WiFi,手动输入WiFi名称进行连接不不行,可能是WiFi频道设置不对

以下是电脑上分享WiFi后&#xff0c;部分手机可以看到并且能连接&#xff0c;部分手机不行&#xff0c;原因是&#xff1a;频道设置为5GHz&#xff0c;修改成&#xff0c;任何可用频率&#xff0c;则可...

批量文件重命名工具

分享一个自己使用 python 开发的小软件&#xff0c;批量文件重命名工具&#xff0c;主要功能有批量中文转拼音&#xff0c;简繁体转换&#xff0c;大小写转换&#xff0c;替换文件名&#xff0c;删除指定字符&#xff0c;批量添加编号&#xff0c;添加前缀/后缀。同时还有文件时…...

ATPrompt方法:属性嵌入的文本提示学习

ATPrompt方法:属性嵌入的文本提示学习 让视觉-语言模型更好地对齐图像和文本(包括未知类别)。 一、问题场景:传统方法的局限 假设你有一个模型,能识别图像中的物体并关联到文本标签(如“狗”“猫”)。 传统方法: 用“软提示”(可学习的文本标签)和“硬类别标记”…...

14.「实用」扣子(coze)教程 | Excel文档自动批量AI文档生成实战,中级开篇

随着AI编程工具及其能力的不断发展&#xff0c;编程将变得越来越简单。 在这个大趋势下&#xff0c;大师兄判断未来的编程将真正成为像office工具一样的办公必备技能。每个人通过 &#xff08;专业知识/资源编程&#xff09;将自己变成一个复合型的人才&#xff0c;大大提高生…...

对于geoserver发布数据后的开发应用

对于geoserver发布数据后的开发应用 文章目录 对于geoserver发布数据后的开发应用[TOC](文章目录) 前言一、geosever管理地理数据的后端实用方法后端进行登录geoserver并且发布一个矢量数据前置的domain数据准备后端内容 总结 前言 首先&#xff0c;本篇文章仅进行技术分享&am…...

液体散货装卸管理人员备考指南

备考液体散货类装卸管理人员资格考试&#xff0c;需要系统学习理论知识、熟悉实操流程&#xff0c;并掌握相关法规标准。以下是备考建议&#xff0c;分为四个阶段&#xff1a; 一、明确考试内容与要求 考试范围 理论知识&#xff1a;液体散货&#xff08;石油、化学品、液化…...

基于Qlearning强化学习的二阶弹簧动力学模型PID控制matlab性能仿真

目录 1.算法仿真效果 2.算法涉及理论知识概要 2.1 传统PID控制器 2.2 Q-Learning强化学习原理 2.3 Q-Learning与PID控制器的融合架构 3.MATLAB核心程序 4.完整算法代码文件获得 1.算法仿真效果 matlab2024B仿真结果如下&#xff08;完整代码运行后无水印&#xff09;&a…...

【监控】Spring Boot 应用监控

这段配置是 Spring Boot 应用中对 Actuator 和 Micrometer 监控系统的配置&#xff0c;用于将应用的指标暴露给 Prometheus 进行收集。下面我将详细介绍这种配置方式及其提供的指标。 配置说明 这个配置主要涉及 Spring Boot Actuator 和 Micrometer 两个核心组件&#xff1a…...

「MATLAB」计算校验和 Checksum

什么是校验和 是一个算法&#xff0c;将一串数据累加&#xff0c;得到一个和。 MATLAB程序 function c_use Checksum(packet) %Checksum 求校验和 % 此处checksum提供详细说明checksum 0;for i 1:length(packet)value hex2dec(packet(i));checksum checksum value; …...