当前位置: 首页 > news >正文

数据挖掘与机器学习DMML(part 8)K近邻(KNN)

 K Nearest Neighbours

KNN Definition

KNN 是一种简单的算法,它存储所有可用案例,并根据相似度量对新案例进行分类。

KNN 不同名称:

K-Nearest Neighbors • Memory-Based Reasoning基于记忆的推理 • Example-Based Reasoning基于实例的推理 • Instance-Based Learning基于实例的学习 • Case-Based Reasoning基于案例的推理 • Lazy Learning懒惰学习

KNN 简史

knn早在 20 世纪 70 年代初就已用于统计估计和模式识别(非参数技术)
动态记忆:  计算机和人的记忆与学习理论》(Schank,1982 年)
人们通过记忆进行推理,通过实践进行学习。 思维就是提醒、类比

KNN主要步骤:

  1. 选择参数K:K是一个正整数,表示在进行决策时将考虑的最近邻居的数量。

  2. 距离度量:选择一个距离度量方法来计算未知样本与已知样本之间的距离,常见的距离度量包括欧氏距离、曼哈顿距离等。

  3. 寻找最近邻:对于一个新的未知样本,计算它与训练集中每个样本的距离,并找出距离最近的K个样本。

  4. 投票决策:根据这K个最近邻样本的类别,通过多数投票的方式来预测新样本的类别。

  5. 分类决策:将获得最高票数的类别指定为新样本的类别。

特点:

  • 懒惰学习:KNN是一种懒惰学习算法,它在训练阶段不需要构建模型,所有的计算都推迟到分类阶段进行。

  • 对数据敏感:KNN对数据的分布非常敏感,特别是当数据集的规模和特征空间的维度变化时。

  • 特征缩放:由于KNN是基于距离的算法,特征的缩放会直接影响距离的计算,因此在应用KNN之前通常需要对特征进行标准化或归一化。

  • 局部结构:KNN可以捕捉到数据的局部结构,这使得它在某些情况下比全局模型(如线性模型)更灵活。

  • 参数选择:K的选择对KNN的性能有很大影响。K太小容易受到噪声的影响,K太大则可能包含太多不相关的邻居,影响分类精度

KNN 邻居数

如果 K=1,选择最近的邻居

如果 K>1,对于分类,选择最频繁的邻居;对于回归,计算 K 个邻居的平均值。

距离加权近邻算法

根据邻居与查询点的 "距离 "分配权重

权重 "可能 "是距离的倒平方

所有训练点都可能影响特定实例:谢泼德方法

距离 :分类变量

基于实例的推理
IB1 基于标准 KNN
IB2 是增量 KNN 学习器,只将错误分类的实例纳入分类器。
IB3通过保留成功记录来剔除表现不佳的实例。 

 基于案例的推理

 

总结

KNN 概念简单,却能解决复杂问题

能在信息相对较少的情况下工作

学习简单(根本无需学习!)

内存和 CPU 成本-特征选择问题

对表示敏感

受维度诅咒的困扰 

相关文章:

数据挖掘与机器学习DMML(part 8)K近邻(KNN)

K Nearest Neighbours KNN Definition KNN 是一种简单的算法,它存储所有可用案例,并根据相似度量对新案例进行分类。 KNN 不同名称: K-Nearest Neighbors • Memory-Based Reasoning基于记忆的推理 • Example-Based Reasoning基于实例的…...

Fortify 24.2.0版本最新版 win/mac/linux

工具介绍: Fortify SCA作为一款业内主流的静态代码扫描工具,被广泛应用于白盒测试中。与其他静态代码扫描工具相比,Fortify SCA的突出优势主要在于更加广泛地支持的语言和开发平台、更全面和权威的安全规则库使扫描更加全面、更加智能化的自定…...

突破时间与空间限制的富媒体百宝箱——智能工具箱:让云上内容生产更easy

“这是你的同款日常吗?老是在赶deadline,苦练PS还未出师,premiere、达芬奇真的好难,学python脑容量确实不够~打工人太难了~~” 来试试智能工具箱吧!即来即用,一键实现办公自由。图片工具、视频工具、音频工…...

MacOs使用Wine 安装UaExpert与UaExpert的使用

要在 macOS 上使用 Wine 安装和运行 UaExpert,可以按照以下步骤操作: 安装 Wine 在 macOS 上,你可以通过 Homebrew 来安装 Wine。如果你还没有安装 Homebrew,可以先安装 Homebrew,然后使用它来安装 Wine。 bash /bin…...

【Prompt Engineering】3.文本概括

一、引言 文本信息量大,LLM在文本概括任务上展现出强大能力。本章介绍如何通过编程方式调用API接口实现文本概括功能。 首先,我们需要引入 zhipuAI 包,加载 API 密钥,定义 getCompletion 函数。 from zhipuai import ZhipuAIke…...

力扣-图论-14【算法学习day.64】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向和记录学习过程(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非…...

redis 架构详解

Redis架构详解可以从以下几个方面进行阐述: 一、部署架构 Redis有多种部署架构,适用于不同的应用场景和需求,主要包括以下几种: 单机模式(Standalone Mode) 特点:部署简单,配置方便…...

多分类交叉熵与稀疏分类交叉熵

总结: 标签为 One-hot 编码的多分类问题,用分类交叉熵对于标签为整数的多分类问题,用稀疏分类交叉熵稀疏分类交叉熵内部会将整数标签转换为 One-hot 编码,而如果标签已经是 One-hot 编码的形式,再使用稀疏分类交叉熵就会多此一举。 算例 假设我们有三个类别:A、B 和 C。…...

PHP 8新特性深度解析与实战应用

引言 PHP作为一种广泛使用的开源脚本语言,以其在Web开发领域的卓越性能而闻名。随着PHP 8的发布,这门语言再次迎来了许多令人兴奋的新特性和改进。本文将深入探讨PHP 8的新特性,并提供实战应用示例,帮助开发者更好地理解和使用PH…...

【C语言】UDP通信

udp使用的是数据报传输。可以一对一&#xff0c;一对多进行传输&#xff0c;用于快速&#xff0c;实时性高的场景 服务器端&#xff1a; 使用步骤&#xff1a; 1.创建socket 2.bind绑定可接收的客户端 3.while{ recv接收数据 send发送数据 } #include <stdio.h> #inclu…...

用Keytool和OpenSSL生成和签发数字证书

一)keytool生成私钥文件(.key)和签名请求文件(.csr),openssl签发数字证书 J2SDK在目录%JAVA_HOME%/bin提供了密钥库管理工具Keytool,用于管理密钥、证书和证书链。Keytool工具的命令在JavaSE6中已经改变,不过以前的命令仍然支持。Keytool也可以用来管理对称加密算法中…...

算法-动态数组-62.不同路径

一、题目 二、思路解析 1.思路&#xff1a; 对于找到目的地它的来源主要来源于目的地的上一格和目的地的左一格 2.常用方法&#xff1a; 无 3.核心逻辑&#xff1a; 1.处理边界&#xff1a; a.只向右移动&#xff0c;至始至终只有一条路径 for(int i0;i<m;i){dp[i][0]1; } …...

Y3编辑器教程5:触发器进阶使用(镜头、UI、表格、函数库、排行榜、游戏不同步)

文章目录 一、游戏声音设计二、 游戏镜头设计2.1 镜头的基本参数2.2 镜头时间轴动画 三、界面编辑3.1 界面编辑器设置3.2 添加按钮事件3.3 触发编写 四、 表格编辑器&#xff08;实现对话UI&#xff09;4.1 一维表和多维表4.2 数据验证、搜索、保存与撤销4.3 Excel导入导出4.4 …...

基于小程序实现地图定位、轨迹绘制、地图标点、快捷导航、唤醒导航APP、开箱即用

目录 前言研究背景与意义研究目标与内容研究方法与技术路线小程序地图组件介绍定位技术与原理轨迹绘制技术地图标注与标记功能地图定位与轨迹绘制功能实现定位功能设计与实现获取用户当前位置总结说明代码块前言 研究背景与意义 地图定位和轨迹追踪作为智能手机中常见的功能之…...

JAVA后端实现全国区县下拉选择--树形结构

设计图如图&#xff1a; 直接上代码 数据库中的格式&#xff1a; JAVA实体类&#xff1a; Data public class SysAreaZoningDO {private Long districtId;private Long parentId;private String districtName;private List<SysAreaZoningDO> children; } MapperSQL语句…...

数据结构速成

1. 数据结构与算法 2. 顺序表 3. 链表 4. 栈与队列 5. 串 6. 树与二叉树&#xff08;1&#xff09; 7. 树与二叉树&#xff08;2&#xff09; 8. 图 9. 图的应用 10. 查找 11. 排序&#xff08;1&#xff09; 12. 排序&#xff08;2&#xff09;...

Electron-Vite 项目搭建(Vue)

前提条件 Node.js: 确保已安装 Node.js 版本 18 或更高版本 (推荐使用最新稳定版)。Vite: 确保 Vite 版本为 4.0 或以上。包管理工具: 推荐使用 pnpm&#xff0c;但也可以使用 npm 或 yarn。 安装 Electron-Vite 首先&#xff0c;在项目中安装 electron-vite 作为开发依赖&a…...

如何寻找和改进开源项目来作为个人简历项目

寻找开源项目&#xff1a; 使用开源代码平台&#xff08;如GitHub&#xff09;来搜索优质的开源项目。例如&#xff0c;可以通过搜索关键词如“spring boot”&#xff0c; in name spring boot或者使用更具体的条件&#xff0c;如“star大于1000”来筛选热门项目。 star:>…...

STEM真题 第五题 比 n 小的最大数

题目描述 给定一个正整数 n&#xff0c;请将 n 中的每位数字重新排列并组成一个新数&#xff0c;要求新数的值要小于 n&#xff0c;请找出所有 符合要求的新数中最大的那个正整数&#xff0c;如果不存在这样的正整数&#xff0c;则输出 -1。例 1&#xff1a;n 312&#xff0…...

HuggingGPT Solving AI Tasks with ChatGPT and its Friends in Hugging Face 论文解读

1. 引言 近年来&#xff0c;大型语言模型&#xff08;LLMs&#xff09;如ChatGPT在自然语言处理领域取得了惊人的进展&#xff0c;展现出强大的语言理解、生成和推理能力。然而&#xff0c;当前的LLMs仍然存在一些局限性&#xff0c;例如无法处理复杂信息&#xff08;如视觉和…...

2026届毕业生推荐的六大AI辅助论文助手解析与推荐

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 鉴于“降ai”所表达的意思不清晰确切&#xff0c;猜测围绕这一主题或许是在探究关于AI的热度…...

告别重复编码:用快马AI自动化实现UI设计,释放创意效率

作为一名经常需要快速产出UI原型的设计师&#xff0c;我深刻体会到从设计稿到可交互代码的转换过程有多耗时。特别是电商类页面&#xff0c;既要考虑视觉表现力&#xff0c;又要兼顾响应式布局和基础交互逻辑。最近尝试用InsCode(快马)平台的AI辅助功能后&#xff0c;发现它能大…...

华硕笔记本风扇异常修复终极指南:用G-Helper轻松解决散热问题

华硕笔记本风扇异常修复终极指南&#xff1a;用G-Helper轻松解决散热问题 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, St…...

通义千问大模型+Flask:打造智能PDF批量解析与问答系统

1. 为什么需要智能PDF解析与问答系统 每天都有海量的PDF文档在各个行业流转&#xff0c;从合同协议到财务报表&#xff0c;从学术论文到产品手册。传统的人工阅读和提取方式效率低下&#xff0c;容易出错。我曾经帮一家律师事务所处理过上千份合同&#xff0c;光是找出所有涉及…...

告别变砖!手把手教你为HC32F460打造带断电保护的BootLoader(附完整代码)

工业级HC32F460 BootLoader设计实战&#xff1a;从防变砖到量产级解决方案 当你的嵌入式设备因为固件升级中断而变成"砖头"&#xff0c;那种绝望感每个开发者都懂。今天我们要解决的&#xff0c;正是这个让无数工程师夜不能寐的痛点——如何为HC32F460设计一个真正工…...

ModernFlyouts:让Windows提示界面焕发新生的开源工具

ModernFlyouts&#xff1a;让Windows提示界面焕发新生的开源工具 【免费下载链接】ModernFlyouts A modern Fluent Design replacement for the old Metro themed flyouts present in Windows. 项目地址: https://gitcode.com/gh_mirrors/mo/ModernFlyouts 在Windows系统…...

Cloudflare Tunnel零基础教程:5分钟搞定内网穿透(附移动网络解决方案)

Cloudflare Tunnel零基础实战指南&#xff1a;从内网穿透到移动网络优化 在数字化办公与远程协作成为常态的今天&#xff0c;如何安全高效地访问内网资源成为许多技术爱好者和小型企业IT人员的刚需。传统的内网穿透方案往往需要复杂的端口映射、动态DNS配置&#xff0c;甚至面临…...

Qwen3.5-9B应用场景:开发者日常——Stack Overflow式问答+Debug辅助

Qwen3.5-9B应用场景&#xff1a;开发者日常——Stack Overflow式问答Debug辅助 1. 开发者新利器&#xff1a;Qwen3.5-9B大模型 作为一名开发者&#xff0c;你是否经常遇到这样的场景&#xff1a;深夜调试代码时遇到报错&#xff0c;Stack Overflow上找不到满意答案&#xff1…...

gInk:重新定义屏幕标注体验的轻量化协作工具

gInk&#xff1a;重新定义屏幕标注体验的轻量化协作工具 【免费下载链接】gInk An easy to use on-screen annotation software inspired by Epic Pen. 项目地址: https://gitcode.com/gh_mirrors/gi/gInk 远程会议中&#xff0c;当产品经理试图在共享屏幕上圈出设计稿的…...

别急着重烧系统!卡在Starting Kernel时,先检查uboot的mmc分区表(以imx6ull为例)

嵌入式系统启动卡在Starting Kernel&#xff1f;先别急着重烧系统&#xff01; 当你满怀期待地按下开发板电源键&#xff0c;串口终端却无情地定格在"Starting kernel..."这一行时&#xff0c;那种挫败感每个嵌入式开发者都深有体会。大多数人的第一反应是怀疑内核镜…...