当前位置: 首页 > article >正文

机器学习40讲-13:线性降维主成分的使用

分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击人工智能教程​​​​​​https://www.captainai.net/troubleshooter在前一篇文章中,我以岭回归和LASSO为例介绍了线性回归的正则化处理。这两种方法都属于收缩方法(shrinkage method),它们能够使线性回归的系数连续变化。但和岭回归不同的是,LASSO可以将一部分属性的系数收缩为0,事实上起到了筛选属性的作用。和LASSO这种间接去除属性的收缩方法相对应的是维度规约。维度规约这个听起来个高大上的名称是数据挖掘中常用的术语,它有一个更接地气的同义词,就是降维(dimensionality reduction),也就是直接降低输入属性的数目来削减数据的维度。对数据维度的探讨来源于“维数灾难”(curse of dimensionality),这个概念是数学家理查德·贝尔曼(Richard Bellman)在动态优化问题的研究中提出的。发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on PatternAnalysisand Machine Intelligence)第1卷第3期的论文《维数问题:一个简单实例(A Problem of Dimensionality: A Simple Example)》在数学上证明了当所有参数都已知时,属性维数的增加可以让分类问题的错误率渐进为0;可当未知的参数只能根据数量有限的样本来估计时,属性维数的增加会使错误率先降低再升高,最终收敛到0.5。这就像一群谋士七嘴八舌在支招,当领导的要是对每个人的意见都深入考虑再来拍板的话,这样的决策也没什么准确性可言了。维数灾难深层次的原因在于数据样本的有限。当属性的维数增加时,每个属性每个可能取值的组合就会以指数形式增长。对于二值属性来说,2个属性所有可能的取值组合共有4种,可每增加一个属性,可能的组合数目就会翻番。一般的经验法则是每个属性维度需要对应至少5个数据样本,可当属性维数增加而样本数目不变时,过少的数据就不足以体现出属性背后的趋势,从而导致过拟合的发生。当然,这只是维数灾难的一种解释方式,另一种解释方式来源于几何角度的数据稀疏性,这里暂且按下不表。在数据有限的前提下解决维数灾难问题,化繁为简的降维是必经之路。降维的对象通常是那些“食之无味,弃之可惜”的鸡肋属性。食之无味是因为它们或者和结果的相关性不强,或者和其他属性之间有较强的关联,使用这样的属性没有多大必要;弃之可惜则是因为它们终究还包含一些独有的信息,就这么断舍离又会心有不甘。如果像亚历山大剑斩戈尔迪之结一般直接砍掉鸡肋属

相关文章:

机器学习40讲-13:线性降维主成分的使用

分享一个大牛的人工智能 教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击人工智能教程​​​​​​https://www.captainai.net/troubleshooter 在前一篇文章中,我以岭回归和LASSO为例介绍了线性回归的正则化处理。这两种方法都属于收缩方法(shr…...

DAG账本项目学习总结(七):MySQL 持久化与 Redis 缓存机制源码解析

1. 上期回顾在第六期中,我们分析了云端广播与交易确认机制。可以简单概括为:融合终端生成交易↓ 写入本地 DAG 账本↓ 广播给 cloud 和其他 fusion↓ cloud 插入全局账本↓ cloud 根据累计权重产生确认动作↓ 确认动作同步回各融合终端到这里为止&#x…...

终极跨平台音频下载解决方案:喜马拉雅FM批量下载器完整指南

终极跨平台音频下载解决方案:喜马拉雅FM批量下载器完整指南 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 你是否经常…...

动态物理模拟中的碰撞处理:Pymunk中的球体大小变化

在物理模拟和游戏开发中,碰撞处理是一个常见但复杂的问题。特别是在使用像Pymunk这样的物理引擎时,如何正确地处理物体在碰撞后的行为(比如体积变化)显得尤为重要。本文将通过一个实际的例子,展示如何在Pymunk中实现一个球体在每次与地面或墙壁碰撞后,其半径增大的逻辑。…...

Chromatic深度解析:基于QuickJS的跨平台动态代码注入框架实现原理

Chromatic深度解析:基于QuickJS的跨平台动态代码注入框架实现原理 【免费下载链接】chromatic Universal modifier for Chromium/V8 | 广谱注入 Chromium/V8 的通用修改器 项目地址: https://gitcode.com/gh_mirrors/be/chromatic 你是否曾经遇到过这样的技术…...

别再只会用t检验了!用Python的statsmodels库做单因素方差分析,5分钟搞定A/B测试结果解读

用Python实现单因素方差分析:A/B测试中的多组比较实战指南 当产品经理同时测试三种新按钮颜色对转化率的影响时,连续做了三次t检验对比各组差异——这个在互联网公司会议室里反复上演的场景,实际上犯了一个统计学上的典型错误。就像用三把尺…...

AI视频翻译,正在改变视频出海

过去一年,“短剧/漫剧出海”几乎成为内容行业最热的方向之一。越来越多的团队开始把中文短剧搬到海外市场,包括:TikTokYouTubeReelShortDramaBoxLokShort海外短视频平台而在这个过程中,一个问题开始越来越明显:内容可以…...

面试官问KMP?别慌!用这道LeetCode 28题(实现strStr())现场给你讲明白

面试官问KMP?别慌!用这道LeetCode 28题(实现strStr())现场给你讲明白 当面试官在白板上写下"实现strStr()"这道题时,许多候选人的第一反应是暴力匹配——直到被追问"有没有更优解?"才意…...

2026.5.11:2026年5月TIOBE指数

2026年5月TIOBE指数 2026年5月TIOBE指数 五月头条:统计编程语言市场正在经历重大整合 本月,R 编程语言在 TIOBE 指数中再次攀升至第八位,追平了历史最高排名。这并非偶然。统计编程语言市场显然正在经历一场重大整合。Python 和 R 成为最大的赢家,而许多老牌语言则持续失去…...

ClawTick CLI:为AI Agent构建可靠任务调度与监控的实践指南

1. 项目概述:为AI Agent构建可靠的任务调度基础设施 如果你正在开发或使用AI Agent,无论是基于LangChain、CrewAI还是OpenClaw,迟早会遇到一个核心问题:如何让这些智能体定时、可靠地执行任务?自己写个定时脚本&#…...

天赐范式第37天:从手机端AI工具的疯狂质疑,到AI电脑端天赐范式的群策群力,为自身提供了源源不断的自驱动力

当3个AI客户端和一个人类(天赐范式),被自己的AI手机端说成是人类的共犯。 参与主体:手机端文心,手机端DEEPSEEK,文章DEEPSEEK(主理),豆包全场看戏。 摘要:手…...

手把手教你用Arduino+ELM327读取OBD-II数据(附代码和常见故障码解析)

用Arduino与ELM327打造智能车载数据监控系统 在创客圈子里,车辆数据监控一直是个既实用又有趣的领域。想象一下,用不到200元的硬件成本,就能实时读取发动机转速、油耗数据甚至诊断车辆潜在故障——这正是Arduino与ELM327组合带来的可能性。不…...

LumenPnP真空系统架构:双喷嘴拾放技术深度解析

LumenPnP真空系统架构:双喷嘴拾放技术深度解析 【免费下载链接】lumenpnp The LumenPnP is an open source pick and place machine. 项目地址: https://gitcode.com/gh_mirrors/lu/lumenpnp LumenPnP作为一款开源桌面贴片机,其真空系统是实现精准…...

AI原生Next.js启动器:集成Claude与Cursor的现代前端开发模板

1. 项目概述:一个为AI时代开发者量身定制的Next.js启动器如果你和我一样,每天都在和Next.js、TypeScript、Tailwind CSS打交道,同时又在频繁地与Claude、Cursor、Copilot这些AI编程助手“对话”,那你肯定也遇到过类似的烦恼&#…...

Windows风扇控制终极指南:FanControl让你5分钟实现专业级散热管理

Windows风扇控制终极指南:FanControl让你5分钟实现专业级散热管理 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_…...

STM32的DAC玩出花:双通道独立波形生成与相位差控制的保姆级配置指南

STM32双通道DAC相位控制实战:从定时器触发到波形同步的工程实现 在工业控制、音频合成和通信系统仿真等领域,精确控制两路模拟信号之间的相位关系是常见需求。STM32系列微控制器内置的12位DAC配合定时器与DMA,能够实现双通道独立波形生成与微…...

AI伦理决策:从技术中立到可执行框架的工程实践

1. 项目概述:当代码开始“思考”对错最近和几个做AI产品落地的朋友聊天,话题总绕不开一个越来越现实的困境:我们开发的智能体,在帮用户做决策时,到底该不该、以及能不能有自己的“道德判断”?比如&#xff…...

书匠策AI:我把课程论文拆成了“乐高积木“,四年论文债一夜清零

先问你一个问题:你上一次写课程论文,是"先想清楚再动笔",还是"先凑够字数再想办法"? 别笑,这两种状态我都经历过。前者熬到凌晨两点,后者交完被老师批注"逻辑混乱"打回重写…...

5分钟免费搞定Windows风扇智能控制:FanControl终极配置指南

5分钟免费搞定Windows风扇智能控制:FanControl终极配置指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendi…...

Origin 9.1 保姆级教程:从数据归一化到论文级图表导出(附避坑指南)

Origin 9.1 科研数据处理与图表输出全流程实战指南 科研数据的可视化呈现是论文写作中不可或缺的一环。作为一款功能强大的科学绘图软件,Origin 9.1在学术界有着广泛的应用。本文将系统性地介绍从数据预处理到高质量图表导出的完整工作流程,特别针对科研…...

宠物领养|基于SprinBoot+vue的宠物领养管理系统(源码+数据库+文档)

宠物领养系统 目录 基于Spring Boot的宠物领养系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1前台 1.1 宠物领养 1.2 宠物认领 1.3 教学视频 2后台 2.1宠物领养管理 2.2 宠物领养审核管理 2.3 宠物认领管理 2.4 宠物认领审核管理 2.5 教学视频管理…...

蓝桥杯-2026年C++B组省赛

(题目来源于洛谷,省一代码分享)P16232 [蓝桥杯 2026 省 B] 青春常数题目背景本站蓝桥杯 2026 省赛测试数据均为洛谷自造,与官方数据可能存在差异,仅供学习参考。题目描述小蓝与蓝桥杯的缘分已经走到了第四个年头。从 2…...

揭秘HunterPie:如何用现代化覆盖层技术革新《怪物猎人:世界》体验

揭秘HunterPie:如何用现代化覆盖层技术革新《怪物猎人:世界》体验 【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_m…...

Moveit2 automaticaddison mycobot_ros2 代码讲解

github地址 https://github.com/automaticaddison/mycobot_ros2/tree/jazzy 一.mycobot_moveit_config 1.moveit2基本控制 在mycobot_moveit_config下面创建config/mycobot_280 initial_positions.yaml 定义了机械臂所有关节的初始位置 joint_limits.yaml 定义每个关节的…...

Unitree GO2 ROS2 SDK完整指南:5步实现四足机器人智能控制与自主导航

Unitree GO2 ROS2 SDK完整指南:5步实现四足机器人智能控制与自主导航 【免费下载链接】go2_ros2_sdk Unofficial ROS2 SDK support for Unitree GO2 AIR/PRO/EDU 项目地址: https://gitcode.com/gh_mirrors/go/go2_ros2_sdk Unitree GO2 ROS2 SDK为四足机器人…...

告别软件模拟!用GD32F303的硬件I2C0高效读写EEPROM(附小熊派工程源码)

深入解析GD32F303硬件I2C驱动EEPROM的工程实践 在嵌入式系统开发中,非易失性存储是保存配置参数、运行日志等关键数据的必备功能。传统软件模拟I2C虽然实现简单,但在通信效率和系统资源占用方面存在明显瓶颈。本文将基于GD32F303的硬件I2C0控制器&#x…...

从‘水管’到‘高速公路’:用‘时延带宽积’重新理解你的网络容量,别再让高带宽‘空转’了

从‘水管’到‘高速公路’:用‘时延带宽积’重新理解你的网络容量 想象一下,你正驾驶一辆满载数据的卡车行驶在数字高速公路上。这条路的车道数(带宽)让你欣喜若狂,但开了半天却发现路上几乎没几辆车——这就是许多工程…...

MRIcroGL如何让医学影像三维可视化变得简单高效?

MRIcroGL如何让医学影像三维可视化变得简单高效? 【免费下载链接】MRIcroGL v1.2 GLSL volume rendering. Able to view NIfTI, DICOM, MGH, MHD, NRRD, AFNI format images. 项目地址: https://gitcode.com/gh_mirrors/mr/MRIcroGL MRIcroGL是一款专业的开源…...

工程人福音!一键提取图纸文字,告别手动打字

建筑工程施工管理工作中,涉及大量文书资料编制,涵盖施工组织设计、专项施工方案、各类报告文件、招投标技术标撰写、项目概况说明、工程量清单项目特征描述等诸多文字内容。此类资料编辑工作量大、耗时费力,人工录入不仅效率低下,…...

从引脚到协议:USB接口演进与Type-C双角色设计解析

1. USB接口的演进之路 记得我第一次拆解老式MP3播放器时,面对那个四针脚的USB接口,完全搞不懂为什么同样的接口有的能传数据有的只能充电。后来才发现,原来USB接口的发展史就是一部微型计算机外设的进化史。 1996年问世的USB 1.0标准只有12Mb…...