环境会影响你的决策:K近邻算法(KNN)
环境会影响你的决策:K近邻算法(KNN)
1. 核心思想与流程
KNN是一种基于局部相似性的分类算法,核心思想是“近朱者赤”:待测样本的类别由其最近的k个邻居的多数类别决定。
关键步骤:
-
定义空间与距离:通常采用欧式空间,计算两点间直线距离:
dis ( a , b ) = ∑ i = 1 n ( a i − b i ) 2 \text{dis}(a,b) = \sqrt{\sum_{i=1}^n (a_i - b_i)^2} dis(a,b)=i=1∑n(ai−bi)2
其他距离度量(如曼哈顿距离、余弦相似度)也可根据场景选择。 -
录入样本:存储所有已知类别的样本(特征向量)。
-
寻找最近k个邻居:计算待测样本与所有已知样本的距离,选取最近的k个。
-
多数表决:统计k个邻居中占比最高的类别,作为待测样本的预测类别。
2. 与逻辑回归的对比
| 维度 | KNN | 逻辑回归 |
|---|---|---|
| 模型类型 | 惰性学习(无显式模型训练) | 参数化模型(需训练参数) |
| 决策依据 | 局部邻居分布(局部分析) | 全局数据分布(线性决策边界) |
| 输出形式 | 直接分类结果(硬分类) | 事件发生概率(软分类) |
| 计算复杂度 | 预测时计算量大(需遍历所有样本) | 训练时计算量大,预测高效 |
| 适用场景 | 非线性可分数据、小规模数据集 | 线性可分数据、大规模数据集 |
| 评估指标 | 准确率、F1-score、混淆矩阵 | 同左,另可结合ROC-AUC分析概率 |
3. 优缺点分析
| 优点 | 缺点 |
|---|---|
| ✅ 直观易理解:无需数学假设,适合入门 | ❌ 计算效率低:预测时需遍历所有样本,不适合大规模数据 |
| ✅ 无需训练:直接存储样本,适合动态更新数据 | ❌ 对噪声敏感:k过小易受异常值影响(过拟合) |
| ✅ 适应复杂边界:能处理非线性分类问题 | ❌ 无法输出概率:仅提供硬分类结果 |
| ✅ 参数简单:仅需调优k值和距离度量 | ❌ 维度灾难:高维数据下距离计算失效 |
4. 关键参数:k值的选择
- k过小(如k=1):
- 过拟合风险:决策边界复杂,对噪声敏感(如右图k=1时边界锯齿状)。
- 示例:仅参考最近1个邻居,可能因单个异常点误判类别。
- k过大(如k=50):
- 欠拟合风险:决策边界过于平滑,忽略局部特征(如右图k=50时边界模糊)。
- 示例:参考过多邻居,可能将边缘样本错误归类。
- 优化方法:
- 交叉验证(Cross-Validation):将数据分为训练集和验证集,选择使验证集准确率最高的k值。
- 经验法则:k通常取奇数(避免平票),初始值可设为样本数的平方根(如100个样本取k=10)。
5. 应用场景
- 推荐系统:
- 电影推荐:根据用户历史观影记录(特征向量),找到相似用户群体(k邻居),推荐他们喜爱的电影。
- 医疗诊断:
- 疾病分类:基于患者症状(如体温、血压)与历史病例库匹配,判断疾病类型。
- 金融风控:
- 信用评估:根据借款人的收入、负债等特征,匹配相似历史客户,预测违约风险。
- 图像识别:
- 手写数字识别:计算待识别图像与训练集中图像的像素距离,判定数字类别。
6. 实践建议
- 特征标准化:不同量纲的特征需归一化(如Z-score标准化),避免距离计算偏向大范围特征。
- 降维处理:对高维数据(如文本TF-IDF向量),使用PCA或t-SNE降低维度,缓解“维度灾难”。
- 权衡效率与精度:
- 小数据集:优先选择k较小(如3-10),捕捉局部细节。
- 大数据集:采用近似算法(如KD树、Ball树)加速邻居搜索。
总结
KNN以“环境决定决策”为核心,通过局部相似性实现分类,是机器学习中最直观的算法之一。其优势在于无需复杂建模和适应非线性数据,但受限于计算效率和维度问题。在实际应用中,需结合交叉验证调参和数据预处理,平衡过拟合与欠拟合风险。
相关文章:
环境会影响你的决策:K近邻算法(KNN)
环境会影响你的决策:K近邻算法(KNN) 1. 核心思想与流程 KNN是一种基于局部相似性的分类算法,核心思想是“近朱者赤”:待测样本的类别由其最近的k个邻居的多数类别决定。 关键步骤: 定义空间与距离:通常采…...
华为云之使用鲲鹏弹性云服务器部署Node.js环境【玩转华为云】
华为云之使用鲲鹏弹性云服务器部署Node.js环境【玩转华为云】 一、本次实践介绍1.1 实践环境简介1.3 本次实践完成目标 二、 相关服务介绍2.1 华为云ECS云服务器介绍2.2 Node.js介绍 三、环境准备工作3.1 预置实验环境3.2 查看预置环境信息 四、登录华为云4.1 登录华为云4.2 查…...
Vue 3 路由管理实战:构建多页面博客导航 - 掌握 Vue Router 实现 SPA 页面跳转
引言 欢迎再次回到 Vue 3 + 现代前端工程化 系列技术博客! 在昨天的第三篇博客中,我们深入探索了 Vue 3 响应式系统的进阶应用,通过构建简易购物车应用,熟练掌握了 watch 监听器和 computed 计算属性的运用。 今天,我们将开启 Vue 3 工程化实践的全新篇章,聚焦于构建单页…...
C语言整体梳理-基础篇-结构体
结构体详解 1.1结构体是什么? 结构体是一些值的集合,这些值成为成员变量,结构体的每个成员可以是不同类型的变量。 数组是相同类型的元素组成的集合,结构体可以是不同类型元素组成的集合。 1.2结构体的声明 1.2.1常规声明 s…...
MacBook 终端中使用 vim命令
在 MacBook 终端中使用 vim 编辑器时,以下是一些常用命令和操作指南: 1. 基本操作 启动 vim vim 文件名 # 打开或创建文件退出 vim 保存并退出: 按 Esc,然后输入 :wq,按 Enter。 不保存退出: 按 Esc&am…...
【 实战案例篇三】【某金融信息系统项目管理案例分析】
大家好,今天咱们来聊聊金融行业的信息系统项目管理。这个话题听起来可能有点专业,但别担心,我会尽量用大白话给大家讲清楚。金融行业的信息系统项目管理,说白了就是如何高效地管理那些复杂的IT项目,确保它们按时、按预算、按质量完成。咱们今天不仅会聊到一些理论,还会通…...
springboot、deepseek4j、bge-m3和milvus
1、pom <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 …...
会话与会话管理:Cookie与Session的深度解析
一、什么是会话? 二、Cookie:客户端存储技术 1. Cookie的工作原理 2、在后端设置cookie 3、在前端设置cookie 三、浏览器开启了cookie禁用怎么办? 一、什么是会话? 会话(Session)是指一个用户与服务器之间…...
etcd部署硬件资源推荐
etcd部署硬件资源推荐 原文:https://etcd.io/docs/v3.5/op-guide/hardware/ etcd 通常在开发或测试环境中运行良好,即使资源有限;在笔记本电脑或廉价云服务器上开发时,使用 etcd 也很常见。然而,在生产环境中运行 etcd…...
MAVlink链路环境搭建并解决“ModuleNotFoundError: No module named ‘xxx’”问题
MAVlink链路常用于云台相机与飞控以及地面站之间的数据传输,搭建MAVlink链路环境需要安装Python、Future、MAVLink、pymavlink四样工具用于生成mavlink代码。 Python 直接从官网下载默认安装即可https://www.python.org/downloads/ 在电脑命令行进行安装验证&#x…...
ROS2软件调用架构和机制解析:Publisher创建
术语 DDS (Data Distribution Service): 用于实时系统的数据分发服务标准,是ROS 2底层通信的基础RMW (ROS Middleware): ROS中间件接口,提供与具体DDS实现无关的抽象APIQoS (Quality of Service): 服务质量策略,控制通信的可靠性、历史记录、…...
Android -- 使用Sharepreference保存List储存失败,原因是包含Bitmap,drawable等类型数据
1.报错信息如下: class android.content.res.ColorStateList declares multiple JSON fields named mChangingConfigurations 2.Bean类属性如下: data class AppInfoBean( val appName: String?, val appIcon: Drawable, val appPackage: String?,…...
java后端开发day23--面向对象进阶(四)--抽象类、接口、内部类
(以下内容全部来自上述课程) 1.抽象类 父类定义抽象方法后,子类的方法就必须重写,抽象方法在的类就是抽象类。 1.定义 抽象方法 将共性的行为(方法)抽取到父类之后。由于每一个子类执行的内容是不一样…...
Go - 泛型的使用
泛型的语法 泛型为Go语言添加了三个新的重要特性: 函数和类型的类型参数。将接口类型定义为类型集,包括没有方法的类型。类型推断,它允许在调用函数时在许多情况下省略类型参数。 类型参数 类型参数的使用 除了函数中支持类型参数列表外,…...
蓝桥杯刷题-dp-线性dp(守望者的逃离,摆花,线段)
[NOIP 2007 普及组] 守望者的逃离 题目描述 恶魔猎手尤迪安野心勃勃,他背叛了暗夜精灵,率领深藏在海底的娜迦族企图叛变。 守望者在与尤迪安的交锋中遭遇了围杀,被困在一个荒芜的大岛上。 为了杀死守望者,尤迪安开始对这个荒岛…...
内容中台的企业CMS架构是什么?
企业CMS模块化架构 现代企业内容管理系统的核心在于模块化架构设计,通过解耦内容生产、存储、发布等环节构建灵活的技术栈。动态/静态发布引擎整合技术使系统既能处理实时更新的产品文档,也能生成高并发的营销落地页,配合版本控制机制确保内…...
算法题(81):询问学号
审题: 需要我们根据给出的n值确定录入数据个数,然后根据给出的数据存储学号。再根据m值确定需要输出的学号个数,然后根据数组内容输出学号 思路: 我们可以利用数组进行数据顺序存储,以及随机读取完成本题 由于学号最大为1e9&#…...
React antd的datePicker自定义,封装成组件
一、antd的datePicker自定义 需求:用户需要为日期选择器的每个日期单元格添加一个Tooltip,当鼠标悬停时显示日期、可兑换流量余额和本公会可兑流量。这些数据需要从接口获取。我需要结合之前的代码,确保Tooltip正确显示,并且数据…...
C++ AVL树详解(含模拟实现)
目录 AVL树的概念 AVL树节点的定义 AVL树的插入 AVL树的旋转(难点) AVL树的验证 AVL树的删除(本文不做具体的模拟实现) AVL树的性能 AVL树的模拟实现 AVL树的概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索…...
Spring Boot 3.x 系列【3】Spring Initializr快速创建Spring Boot项目
有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot版本3.0.3 源码地址:https://gitee.com/pearl-organization/study-spring-boot3 文章目录 前言安装JDK 17创建Spring Boot 项目 方式1:网页在线生成方式2&#…...
Elasticsearch:过滤 HNSW 搜索,快速模式
作者:来自 Elastic Benjamin Trent 通过我们的 ACORN-1 算法实现,探索我们对 Apache Lucene 中的 HNSW 向量搜索所做的改进。 多年来,Apache Lucene 和 Elasticsearch 一直支持使用 kNN 查询的过滤搜索,允许用户检索符合指定元数据…...
TCP长连接与短连接
TCP长连接与短连接 TCP(传输控制协议)中的长连接和短连接是两种不同的连接管理方式,各有优缺点: 短连接 短连接是指客户端与服务器完成一次数据交换后就断开连接。下次需要通信时,再重新建立连接。 特点࿱…...
【AI测试学习】AnythingLLM+Ollama+DeepSeek部署私人知识库
1.搭建DeepSeek大语言模型 1.1Ollama大预言模型部署 Ollama简化了大型语言模型的运行,让每个人都能在本地轻松体验AI的强大,打开浏览器-下载Ollama-输入命令-搞定,这是本地部署大语言模型的全新方式。 这里我们借助Ollama大预言模型部署工具进行搭建 官网如下:Ollama …...
防流、节抖、重绘、回流原理,以及实现方法和区别
防流、节抖、重绘、回流原理,以及实现方法和区别,还有就是为什么会出现这种情况? 防抖(Debounce) 原理 防抖就像是你坐电梯,如果你一直不停地按开门按钮,电梯不会每次都开门,而是…...
通义灵码插件安装入门教学 - IDEA(安装篇)
在开发过程中,使用合适的工具和插件可以极大地提高我们的工作效率。今天,我们将详细介绍如何在 IntelliJ IDEA 中安装并配置通义灵码插件,这是一款旨在提升开发者效率的实用工具。无论你是新手还是有经验的开发者,本文都将为你提供…...
ES、OAS、ERP、电子政务、企业信息化(高软35)
系列文章目录 ES、OAS、ERP、电子政务、企业信息化 文章目录 系列文章目录前言一、专家系统(ES)二、办公自动化系统(OAS)三、企业资源规划(ERP)四、典型信息系统架构模型1.政府信息化和电子政务2.企业信息…...
用大白话解释缓存Redis +MongoDB是什么有什么用怎么用
Redis和MongoDB是什么? Redis:像你家的“小冰箱”,专门存高频使用的食物(数据)。它是基于内存的键值数据库,读写速度极快(每秒超10万次操作)。比如你每次打开手机App,用…...
华为数通Datacom认证体系详解:从HCIA到HCIE的进阶路径
华为数通Datacom(Data Communication)课程是华为认证体系中的核心方向之一,聚焦企业网络通信与数据通信技术,适合从事网络规划、部署和运维的人员。 一、数通Datacom课程体系 华为数通Datacom认证分为 三个级别,逐级递…...
PyTorch 的 nn.NLLLoss:负对数似然损失全解析
PyTorch 的 nn.NLLLoss:负对数似然损失全解析 在 PyTorch 的损失函数家族中,nn.NLLLoss(Negative Log Likelihood Loss,负对数似然损失)是一个不太起眼但非常重要的成员。它经常跟 LogSoftmax 搭配出现,尤…...
《数据安全架构设计与实战》的目录
《数据安全架构设计与实战》的目录如下1: 第一部分 安全架构基础 第 1 章 架构第 2 章 安全架构 2.1 什么是安全2.2 为什么使用 “数据安全” 这个术语2.3 什么是安全架构2.4 安全架构 5A 方法论2.5 安全架构 5A 与 CIA 的关系 第二部分 产品安全架构 …...
