机器学习:k近邻
所有代码和文档均在golitter/Decoding-ML-Top10: 使用 Python 优雅地实现机器学习十大经典算法。 (github.com),欢迎查看。
K 邻近算法(K-Nearest Neighbors,简称 KNN)是一种经典的机器学习算法,主要用于分类和回归任务。它的核心思想是:给定一个新的数据点,通过查找训练数据中最接近的 K 个邻居,并根据这些邻居的标签来预测新数据点的标签。
KNN 是一种 基于实例的学习(Instance-based learning)算法。在训练阶段,它并不构建显式的模型,而是将训练数据存储起来,在预测阶段计算待预测点与训练集中所有点的距离,然后选择 K 个最近的邻居,根据邻居的标签进行投票或平均来做出预测。
KNN 的优点在于其简单易懂、无需训练过程,并且适用于大多数任务。它能够处理复杂的非线性问题,不依赖数据分布假设,能够很好地适应复杂的决策边界。
然而,KNN 的缺点也很明显。它的计算开销大,因为每次预测都需要计算所有训练数据的距离,导致在大数据集上表现不佳。此外,KNN 需要存储所有训练数据,占用较大的内存空间,并且对异常值敏感,可能会影响预测结果的准确性。
KNN算法步骤:
- 选择 K 个邻居的数量,K 值通常是一个奇数,以避免平票的情况。
- 计算待预测数据点与训练数据集中每个点的距离。
- 根据计算出的距离选择 K 个最接近的点。
- 对于分类任务,返回 K 个邻居中最多的类别;对于回归任务,返回 K 个邻居标签的均值。
代码实现
数据处理:使用iris.data数据集,用PCA进行降维。
import numpy as np
import pandas as pddef pca(X: np.array, n_components: int) -> np.array:"""PCA 进行降维。"""# 1. 数据标准化(去均值)X_mean = np.mean(X, axis=0)X_centered = X - X_mean# 2. 计算协方差矩阵covariance_matrix = np.cov(X_centered, rowvar=False)# 3. 计算特征值和特征向量eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)# 4. 按特征值降序排序sorted_indices = np.argsort(eigenvalues)[::-1]top_eigenvectors = eigenvectors[:, sorted_indices[:n_components]]# 5. 投影到新空间X_pca = np.dot(X_centered, top_eigenvectors)return X_pcadef get_data():data = pd.read_csv('iris.csv', header=None)# print(data.dtypes)unq = data.iloc[:, -1].unique()for i, u in enumerate(unq):data.iloc[:, -1] = data.iloc[:, -1].apply(lambda x: i if x == u else x)# print(data.sample(5))xuanze = np.random.choice([True, False], len(data), replace=True, p=[0.8, 0.2])train_data = data[xuanze]test_data = data[~xuanze]train_data = np.array(train_data,dtype=np.float32,)test_data = np.array(test_data, dtype=np.float32)# 归一化train_data[:, :-1] = (train_data[:, :-1] - train_data[:, :-1].mean(axis=0)) / train_data[:, :-1].std(axis=0)test_data[:, :-1] = (test_data[:, :-1] - test_data[:, :-1].mean(axis=0)) / test_data[:, :-1].std(axis=0)return (pca(train_data[:, :-1], 2),train_data[:, -1].astype(np.int32),pca(test_data[:, :-1], 2),test_data[:, -1].astype(np.int32),)if __name__ == '__main__':x_train, y_train, x_test, y_test = get_data()print(y_train.dtype)print(x_test, y_test)print(x_train.shape, y_train.shape)
knn过程:
from data_processing import get_data
import numpy as np
import matplotlib.pyplot as pltdef euclidean_distance(x_train: np.array, x_test: np.array) -> np.array:"""计算欧拉距离"""return np.sqrt(np.sum((x_train - x_test) ** 2, axis=1))def knn(k: int, x_train: np.array, y_train: np.array, x_test: np.array) -> np.array:"""k近邻算法"""predictions = []for test in x_test:distances = euclidean_distance(x_train, test)nearest_indices = np.argsort(distances)[:k] # 返回最近的k个点的索引nearest_labels = y_train[nearest_indices] # 返回最近的k个点的标签prediction = np.argmax(np.bincount(nearest_labels)) # 返回最近的k个点中出现次数最多的标签predictions.append(prediction)return np.array(predictions)def accuracy(predictions: np.array, y_test: np.array) -> float:"""计算准确率"""return np.sum(predictions == y_test) / len(y_test)if __name__ == '__main__':k = 5x_train, y_train, x_test, y_test = get_data()predictions = knn(k, x_train, y_train, x_test)acc = accuracy(predictions, y_test)print(f'准确率为: {acc * 100:.2f}')# 绘制训练数据plt.scatter(x_train[:, 0], x_train[:, 1], c=y_train, cmap='viridis', marker='o', label='Train Data', alpha=0.7)# 绘制测试数据plt.scatter(x_test[:, 0], x_test[:, 1], c=y_test, cmap='coolwarm', marker='x', label='Test Data', alpha=0.7)# 绘制预测结果plt.scatter(x_test[:, 0],x_test[:, 1],c=predictions,cmap='coolwarm',marker='.',edgecolor='black',alpha=0.7,label='Predictions',)# 添加标题和标签plt.title('KNN Classification Results')plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.legend()# 显示图形plt.show()

相关文章:
机器学习:k近邻
所有代码和文档均在golitter/Decoding-ML-Top10: 使用 Python 优雅地实现机器学习十大经典算法。 (github.com),欢迎查看。 K 邻近算法(K-Nearest Neighbors,简称 KNN)是一种经典的机器学习算法,主要用于分类和回归任务…...
redis之lua实现原理
文章目录 创建并修改Lua环境Lua环境协作组件伪客户端lua scripts字典 EVAL命令的实现定义脚本函数执行脚本函数 EVALSHA命令的实现脚本管理命令的实现SCRIPT FLUSHSCRIPTEXISTSSCRIPT LOADSCRIPT KILL 脚本复制复制 EVAL命令、SCRIPT FLUSH命令和SCRIPT LOAD命令* 复制EVALSHA命…...
[Android] 【汽车OBD软件】Torque Pro (OBD 2 Car)
[Android] 【汽车OBD软件】Torque Pro (OBD 2 & Car) 链接:https://pan.xunlei.com/s/VOIyKOKHBR-2XTUy6oy9A91yA1?pwdm5jm# 获取 OBD 故障代码、汽车性能数据等等。Torque 使用连接到您的 OBD2 发动机管理/ECU 的 OBD II 蓝牙适配器。…...
安全问答—安全的基本架构
前言 将一些安全相关的问答进行整理汇总和陈述,形成一些以问答呈现的东西,加入一些自己的理解,欢迎路过的各位大佬进行讨论和论述。很多内容都会从甲方的安全认知去进行阐述。 1.安全存在的目的? 为了支持组织的目标、使命和宗…...
Java 运行时常量池笔记(详细版
📚 Java 运行时常量池笔记(详细版) Java 的运行时常量池(Runtime Constant Pool)是 JVM 方法区的一部分,用于存储编译期生成的字面量和符号引用。它是 Java 类文件常量池的运行时表示,具有动态…...
mysql增加字段操作以及关键字报错
修改mysql DDL语言 修改代码中domain 修改mapper中信息 java.sql.SQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near index, date, scroll_id, shard_ser…...
Wireshark 输出 数据包列表本身的值
在 Wireshark 中,如果你想输出数据包列表本身的值(例如,将数据包的摘要信息、时间戳、源地址、目的地址等导出为文本格式),可以使用 导出为纯文本文件 的功能。以下是详细步骤: 步骤 1:打开 Wir…...
日常开发中,使用JSON.stringify来实现深拷贝的坑
使用JSON.stringify的方式来实现深拷贝的弊端 弊端一:无法拷贝NaN、Infinity、undefined这类值 无法拷贝成功的原因: 对于JSON来说,它支持的数据类型只有null、string、number、boolean、Object、Array,所以对于它不支持的数据类…...
【探商宝】:大数据与AI赋能,助力中小企业精准拓客引
引言:在数据洪流中,如何精准锁定商机? 在竞争激烈的商业环境中,中小企业如何从海量信息中快速筛选出高价值客户?如何避免无效沟通,精准触达目标企业? 探商宝——一款基于大数据与AI技术的企业信…...
Javascript网页设计案例:通过PDF.js实现一款PDF阅读器,包括预览、页面旋转、页面切换、放大缩小、黑夜模式等功能
前言 目前功能包括: 切换到首页。切换到尾页。上一页。下一页。添加标签。标签管理页面旋转页面随意拖动双击后还原位置 其实按照自己的预期来说,有很多功能还没有开发完,配色也没有全都搞完,先发出来吧,后期有需要…...
各类系统Pycharm安装教程
各类系统Pycharm安装教程 一、安装前的准备 1. 系统要求 操作系统: Windows:Windows 10 或更高版本(64位)。macOS:macOS 10.14 或更高版本。Linux:Ubuntu 18.04+、Fedora 30+ 等主流发行版。硬件要求: 内存:至少 4GB(推荐 8GB 以上)。磁盘空间:至少 2.5GB 可用空间…...
哈希表(C语言版)
文章目录 哈希表原理实现(无自动扩容功能)代码运行结果 分析应用 哈希表 如何统计一段文本中,小写字母出现的次数? 显然,我们可以用数组 int table[26] 来存储每个小写字母出现的次数,而且这样处理,效率奇高。假如我们想知道字…...
内容中台驱动企业数字化内容管理高效协同架构
内容概要 在数字化转型加速的背景下,企业对内容管理的需求从单一存储向全链路协同演进。内容中台作为核心支撑架构,通过统一的内容资源池与智能化管理工具,重塑了内容生产、存储、分发及迭代的流程。其核心价值在于打破部门壁垒,…...
LLaMA-Factory DeepSeek-R1 模型 微调基础教程
LLaMA-Factory 模型 微调基础教程 LLaMA-FactoryLLaMA-Factory 下载 AnacondaAnaconda 环境创建软硬件依赖 详情LLaMA-Factory 依赖安装CUDA 安装量化 BitsAndBytes 安装可视化微调启动 数据集准备所需工具下载使用教程所需数据合并数据集预处理 DeepSeek-R1 可视化微调数据集处…...
vue 文件下载(导出)excel的方法
目前有一个到处功能的需求,这是我用过DeepSeek生成的导出(下载)excel的一个方法。 1.excel的文件名是后端生成的,放在了响应头那里。 2.这里也可以自己制定文件名。 3.axios用的是原生的axios,不要用处理过的ÿ…...
【第4章:循环神经网络(RNN)与长短时记忆网络(LSTM)— 4.3 RNN与LSTM在自然语言处理中的应用案例】
咱今天来聊聊在人工智能领域里,特别重要的两个神经网络:循环神经网络(RNN)和长短时记忆网络(LSTM),主要讲讲它们在自然语言处理里的应用。你想想,平常咱们用手机和别人聊天、看新闻、听语音助手说话,背后说不定就有 RNN 和 LSTM 在帮忙呢! 二、RNN 是什么? (一)…...
LLMs Ollama
LLMs 即大型语言模型(Large Language Models),是人工智能领域基于深度学习的重要技术,以下是关于它的详细介绍: 定义与原理 定义:LLMs 是一类基于深度学习的人工智能模型,通过海量数据和大量计…...
Blackbox.AI:高效智能的生产力工具新选择
前言 在当今数字化时代,一款高效、智能且功能全面的工具对于开发者、设计师以及全栈工程师来说至关重要。Blackbox.AI凭借其独特的产品特点,在众多生产力工具中脱颖而出,成为了我近期测评的焦点。以下是我对Blackbox.AI的详细测评࿰…...
计算机专业知识【 轻松理解数据库四大运算:笛卡尔积、选择、投影与连接】
在数据库的世界里,有几个关键的运算操作,就像是神奇的魔法工具,能帮助我们对数据进行各种处理和组合。今天,咱们就来聊聊笛卡尔积运算、选择运算、投影运算和连接运算这四大运算,用超简单的例子让小白也能轻松理解。 …...
C/C++字符串格式化全解析:从printf到std::format的安全演进与实战指南
目录 C 语言中的格式化函数对比 1. printf / fprintf / sprintf 的异同 C 中的字符串格式化 1. 流式输出 (std::ostringstream) 2. C20/23 格式化库 (std::format,需编译器支持) 跨语言对比与最佳实践 实战建议 总结 C 语言中的格式化函数对比 1. printf / …...
ROS2机器人避障仿真实战:用Webots_ros2驱动自定义URDF模型(附完整代码)
ROS2与Webots深度整合实战:从URDF建模到避障算法全流程解析 在机器人开发领域,仿真环节正变得越来越重要。想象一下这样的场景:你花费数周设计的机器人原型,在物理样机制作完成后才发现传感器布局存在致命缺陷——这种昂贵的试错成…...
Leptos包大小优化终极指南:如何将WASM文件缩减至最小
Leptos包大小优化终极指南:如何将WASM文件缩减至最小 【免费下载链接】leptos Build fast web applications with Rust. 项目地址: https://gitcode.com/GitHub_Trending/le/leptos Leptos是一个使用Rust构建快速Web应用的框架,通过WebAssembly&a…...
Python 爬虫数据处理:半结构化网页数据智能抽取模板
前言 在互联网数据采集场景中,严格遵循 XML、JSON 规范的全结构化数据占比相对有限,绝大多数公开网页内容均以半结构化形态呈现。半结构化数据区别于规整的数据库表格、标准接口 JSON 数据,具备固定排版逻辑、重复标签层级、统一内容排布规律…...
2026年床垫弹簧机生产厂家排名,靠谱选择看这几点
说到选床垫弹簧机生产厂家,很多人上来就问“排名”。但说句实在话,单纯看排名很容易踩坑。国内做这行的企业不少,但能做到技术过硬、服务到位、还能陪你走长远的,其实就那么几家。2026年,与其迷信榜单,不如…...
从128ms到9.3ms响应,从$427/月到$158/月——PHP 9.0异步AI网关真实成本拆解(含AWS Lambda冷启动规避方案)
更多请点击: https://intelliparadigm.com 第一章:PHP 9.0异步AI网关演进全景图 PHP 9.0 正式将协程原生化、事件驱动内核与 AI 接口抽象层深度集成,标志着 PHP 从传统 Web 脚本语言跃迁为高并发 AI 服务编排中枢。其核心突破在于引入 async…...
定氢探头精准把控氢含量——唐山大方汇中仪表
氢含量是影响高品质钢、特殊钢种性能的关键指标,氢脆、气孔等缺陷直接降低钢材使用寿命。定氢探头作为冶金行业氢含量检测专用元件,专为高端特种钢冶炼量身打造,是生产轨道交通钢、钎钢钎具等精品钢材的核心器件。 唐山大方汇中仪表自主研发…...
如何用Hitboxer解决游戏键盘的终极痛点:告别按键冲突,提升竞技水平
如何用Hitboxer解决游戏键盘的终极痛点:告别按键冲突,提升竞技水平 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在竞技游戏的激烈对抗中,每一次按键延迟或冲突都可能导致整…...
对比使用Taotoken前后在模型选型与切换上的效率提升
使用 Taotoken 简化模型选型与切换的技术实践 1. 传统模型接入的痛点 在 Taotoken 平台出现之前,开发者接入不同大模型厂商的 API 需要面对一系列繁琐流程。每个厂商都有独立的注册流程、API Key 申请方式和文档体系。以常见的三个模型为例,开发者需要…...
PCB原型制造质量对电子产品开发的关键影响
1. PCB原型制造质量的核心价值在电子产品开发流程中,PCB原型阶段常被误解为"简单打样",但实际它承载着远超表面价值的关键使命。我经历过数十个硬件项目后发现,原型板质量直接决定了后续开发60%以上的问题排查效率。当设计团队拿到…...
为什么90%的Dify工业知识库项目卡在验收阶段?3家头部装备制造商不愿透露的5项合规性校验清单(含等保2.0适配要点)
更多请点击: https://intelliparadigm.com 第一章:Dify 工业知识库智能检索 Dify 作为开源低代码 LLM 应用开发平台,为工业领域构建可落地的知识库检索系统提供了端到端支持。其核心能力在于将非结构化技术文档、设备手册、故障案例、标准规…...
