数据挖掘——回归算法
数据挖掘——回归算法
- 回归算法
- 线性回归
- 最小二乘法
- 优化求解——梯度下降法
- 逻辑回归
- 逻辑回归函数
- 逻辑回归参数估计
- 逻辑回归正则化
- 决策树回归
- 小结
回归算法
回归分析
如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化的变量作为因变量(房价),研究他们之间的非确定映射关系,这种分析就称为回归分析。
回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。
回归和分类的区别:
分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。
线性回归
线性回归假设特征和响应满足线性关系
一元线性回归问题函数关系可表示
y = a + b x y=a+bx y=a+bx
- 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
- a、b为参数(parameters)、或称回归系数(regression coefficients)
采用什么样的线性关系误差刻画更好呢?
最小二乘法
基本思想:保证直线与所有点接近
详细做法:
若有n个样本点: ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),… ,(x_n,y_n) (x1,y1),…,(xn,yn),可以用下面的表达式来刻画这些
点与直线y=a+bx的接近程度:
[ y 1 − ( a + b x 1 ) ] 2 + . . . + [ y n − ( a + b x n ) ] 2 [y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2 [y1−(a+bx1)]2+...+[yn−(a+bxn)]2
使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。
对a和b求偏导数,可以得到:
b = x 1 y 1 + . . . + x n y n − n x ˉ y ˉ x 1 2 + . . . + x n 2 − n x ˉ 2 , a = y ˉ − b x ˉ b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x b=x12+...+xn2−nxˉ2x1y1+...+xnyn−nxˉyˉ,a=yˉ−bxˉ

优化求解——梯度下降法
基本思想
- 向着梯度的反方向调整
- 步长不能太大,也不能太小

逻辑回归
逻辑回归函数
f ( x ) = e x 1 + e x f(x)=\frac{e^x}{1+e^{x}} f(x)=1+exex,值域为[0,1]


逻辑回归参数估计

使用梯度下降方法,迭代求解参数
逻辑回归正则化

W在数值上越小越好,这样越能抵抗数据的扰动

L1倾向于使得w要么取1,要么取0稀疏编码
L2倾向于使得w整体偏小(岭回归)
L1适合挑选特征
L2也称为岭回归,有很强的概率意义

决策树回归
决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。

既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?——决策树分类选择划分点,使得信息增益最大,叶节点输出即类别
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法。
小结

相关文章:
数据挖掘——回归算法
数据挖掘——回归算法 回归算法线性回归最小二乘法优化求解——梯度下降法逻辑回归逻辑回归函数逻辑回归参数估计逻辑回归正则化 决策树回归小结 回归算法 回归分析 如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化…...
AIGC与未来的通用人工智能(AGI):从生成内容到智能革命
目录 第一部分:AIGC概述 1.1 什么是生成式人工智能(AIGC) 1.2 AIGC的应用 第二部分:通用人工智能(AGI)概述 2.1 什么是通用人工智能(AGI) 2.2 AGI的关键特征 2.3 当前AGI的挑战 第…...
jQuery学习笔记3
jQuery 事件注册 jQuery 事件处理 <div></div><ul><li>我们都是好孩子</li><li>我们都是好孩子</li><li>我们都是好孩子</li><li>我们都是好孩子</li><li>我们都是好孩子</li></ul><o…...
SpringMVC(六)拦截器
目录 1.什么是拦截器 2.拦截器和过滤器有哪些区别 3.拦截器方法 4.单个拦截器的执行流程 5.使用拦截器实现用户登录权限验证(实例) 1.先在html目录下写一个login.html文件 2.在controller包下写一个LoginController文件 3.加拦截器 1.创建一个conf…...
单区域OSPF配置实验
1、绘制拓扑图 2、配置ip地址 R0 Router(config)#interface FastEthernet0/0 Router(config-if)#ip address 192.168.1.1 255.255.255.0 Router(config-if)#no shutdown Router(config-if)#exit Router(config)#interface FastEthernet0/1 Router(config-if)#ip address 192.16…...
Linux上vi(vim)编辑器使用教程
vi(vim)是上Linux非常常用的编辑器,很多Linux发行版都默认安装了vi(vim)。vi(vim)命令繁多但是如果使用灵活之后将会大大提高效率。vi是“visual interface”的缩写,vim是vi IMproved(增强版的vi)。在一般的系统管理维护中vi就够用,如果想使用…...
虚拟机图像界面打不开了
今天打开虚拟机的时候图形界面打不开,进入到tty1中,而且还没有网,找了好几个办法都不行最后找到这个博主发的,解决了 修复 https://www.cnblogs.com/shuimuqingyang/p/15070690.html...
《经典力学》笔记
文章目录 直线运动弹簧和简谐运动动能,势能,机械能动量动量守恒机械能守恒弹性碰撞和非弹性碰撞冲量 圆周运动匀速圆周运动转动惯量平行轴定理 角动量角动量守恒 英语 直线运动 弹簧和简谐运动 F s → − k x 1 → \overrightarrow{F_s}-k \overrighta…...
【论文+源码】基于Spring和Spring MVC的汉服文化宣传网站
为了实现一个基于Spring和Spring MVC的汉服文化宣传网站,我们需要创建一个简单的Web应用程序来展示汉服文化和相关信息。这个系统将包括以下几个部分: 数据库表设计:定义文章、用户和评论的相关表。实体类:表示数据库中的数据。DAO层接口及MyBatis映射文件:用于与数据库交…...
计算机的错误计算(一百九十九)
摘要 用大模型判断下面四个函数 有何关系?并计算它们在 x0.00024时的值,结果保留10位有效数字。两个大模型均认为它们是等价的。实际上,还有点瑕疵。关于计算函数值,大模型一只是纸上谈兵,没计算;大模型二…...
【AI日记】25.01.02 kaggle 比赛 3-1
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】 工作 参加:kaggle 比赛 Forecasting Sticker Sales时间:4 小时 读书 书名:秦制两千年时间:5 小时阅读原因:之前看过 《商君书》,对秦制…...
el-pagination 为什么只能展示 10 条数据(element-ui@2.15.13)
好的,我来帮你分析前端为什么只能展示 10 条数据,以及如何解决这个问题。 问题分析: pageSize 的值: 你的 el-pagination 组件中,pageSize 的值被设置为 10:<el-pagination:current-page"current…...
Ps:将数据组作为文件导出
Ps菜单:文件/导出/数据组作为文件 Export/Data Sets as Files “将数据组作为文件导出” Export Data Sets as Files命令是 Photoshop 数据驱动设计功能的一部分,用于结合可变数据和模板,生成多个文件。 1、自动化批量生成 适用于名片、证书、…...
nohup.out日志
1、nohup.out生成 在你执行 nohup java -jar ruoyi-admin.jar & 时,程序原本要输出到控制台的所有内容,包括日志框架输出到控制台的部分,都会被写入 nohup.out 。nohup 命令运行程序时,默认情况下,nohup 会把程序的…...
01 背包
文章目录 前言代码思路 前言 总是感觉有点没有完全懂,但是说起来的时候好像又懂一点点,就是我现在的状态。 代码 二维的直接的版本 #include<iostream> #include<algorithm>using namespace std;const int N 1010; int f[N][N]; int v[…...
QT-------------多线程
实现思路 QThread 类简介: QThread 是 Qt 中用于多线程编程的基础类。可以通过继承 QThread 并重写 run() 方法来创建自定义的线程逻辑。新线程的执行从 run() 开始,调用 start() 方法启动线程。 掷骰子的多线程应用程序: 创建一个 DiceThre…...
【JVM】深入了解Java虚拟机-------内存划分、类加载机制、垃圾回收机制
目录 什么是JVM? 内存划分: 1.堆 (共享) 2.栈 (私有) 3.元数据区(共享) 4.程序计数器(私有) 示例: JVM 类加载 一.类加载过程 1.加载 2.验证 3.…...
k8s部署juicefs
操作系统k8smysqlminiojuicefs内核centos8.21.19.18.0.39RELEASE.2023-12-20T01-00-02Zv0.19.04.18.0-193.el8.x86_64 本文k8s较老采用老版本的juicefs,中间件也都是部署在k8s上。测试是否能成功创建动态pvc挂在到测试pod当中并查看到数据信息。一些偏理论知识就不多…...
【ArcGIS微课1000例】0136:制作千层饼(DEM、影像、等高线、山体阴影图层)
文章目录 一、效果展示二、数据准备三、制作过程1. 打开软件2. 制作DEM图层3. 制作影像层4. 制作TIN层5. 制作等高线层四、注意事项一、效果展示 二、数据准备 订阅专栏后,从专栏配套案例数据包中的0136.rar中获取。 1. dem 2. 影像 3. 等高线 4. tin 三、制作过程 1. 打开软…...
Ajax数据爬取
有时我们用requests 抓取页面得到的结果,可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,而使用requests 得到的结果中并没有这些数据。这是因为 requests 获取的都是原始 HTML 文档,而浏览器中的页面是JavaScript 处理…...
seo优化服务价格一般是多少_网站快速排名对网站访问量有什么影响
SEO优化服务价格一般是多少_网站快速排名对网站访问量有什么影响 在当前数字化经济的浪潮中,网站的流量和排名直接决定了企业的成功与否。SEO优化服务价格一般是多少?更重要的是,网站快速排名对网站访问量有什么影响呢?这两个问题…...
GME-Qwen2-VL-2B效果实测:LaTeX公式截图转代码的准确率与效率
GME-Qwen2-VL-2B效果实测:LaTeX公式截图转代码的准确率与效率 如果你经常需要处理学术论文或者技术文档,肯定遇到过这样的麻烦事:看到一篇PDF或者网页上有个特别复杂的数学公式,想在自己的文档里用,结果发现要么没提供…...
市场上有哪些做专精特新,创新型中小企业。企业老顾客选择多
在当今经济发展格局中,专精特新,创新型中小企业正成为推动经济创新发展的重要力量。那市场上有哪些这样的企业深受老顾客青睐呢?市场热门企业类型行业报告显示,在高端装备制造、电子信息、生物医药等领域,有不少专精特…...
OpenClaw跨平台控制:Kimi-VL-A3B-Thinking远程执行多模态任务方案
OpenClaw跨平台控制:Kimi-VL-A3B-Thinking远程执行多模态任务方案 1. 为什么需要跨平台远程控制? 上周五晚上11点,我正躺在沙发上刷手机,突然想起有个紧急的竞品分析报告需要处理。电脑在书房,实在懒得起身。这时我意…...
生产环境Python 3.14 JIT崩溃率突增400%?,资深SRE团队紧急封存的8个未公开__PyJIT_TraceConfig参数调优组合
第一章:Python 3.14 JIT 编译器性能调优生产环境部署全景图Python 3.14 引入的原生 JIT 编译器(代号 “PyJIT”)标志着 CPython 运行时架构的重大演进。它不再依赖外部工具链(如 Cython 或 Numba),而是以内…...
三相离网逆变器在不对称负载下的正负序控制Matlab仿真探索
三相离网逆变器在不对称负载下的正负序控制matlab仿真: 1不对称控制包括: 正序分量处理负序分量处理正序控制环负序控制环; 2正序控制换路与负序控制换路都采用dq轴上的电容电压外环电感电流内环控制; 3直流电压Vdc700V,总功率15kWÿ…...
空间多组学解决方案发展提速:未来六年CAGR锁定15.3%,行业增长预期持续向好
在生命科学领域,精准医学和个性化治疗的需求日益增长,对生物组织和细胞在空间维度上的深入理解成为关键。空间多组学解决方案作为这一需求的核心支撑技术,正受到全球科研和产业界的广泛关注。据恒州诚思调研统计,2025年全球空间多…...
72小时数字记忆拯救计划:GetQzonehistory全方位备份方案
72小时数字记忆拯救计划:GetQzonehistory全方位备份方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 记忆保卫战:当十年说说面临消失危机 "您的QQ空间数…...
javaweb高校学生宿舍管理系统的设计与实现
目录同行可拿货,招校园代理 ,本人源头供货商高校学生宿舍管理系统功能分析学生信息管理模块宿舍分配管理模块费用管理模块报修与维修管理模块访客与门禁管理模块卫生检查与评分模块系统管理模块技术实现要点项目技术支持源码获取详细视频演示 :文章底部获取博主联系…...
Matlab vs Python:灰色关联分析(GRA)可视化效果大比拼
Matlab vs Python:灰色关联分析可视化效果与实现深度对比 在数据科学领域,灰色关联分析(Grey Relational Analysis, GRA)作为一种强大的小样本数据分析工具,正逐渐受到研究者和实践者的青睐。面对两种主流编程语言Matlab和Python,…...
