当前位置: 首页 > article >正文

机器学习-线性回归基础

一、什么是回归

        依据输入x写出一个目标值y的计算方程,求回归系数的过程就叫回归。简言之:根据题意列出方程,求出系数的过程就叫做回归。

        回归的目的是预测数值型的目标值y,分类的目的预测标称型的目标值y。

二、线性回归

2.1线性回归的定义

        线性回归是一种通过历史数据寻找变量间线性规律的统计方法。它假设因变量(如销售额)与自变量(如广告费)之间存在“直线关系”,并通过拟合这条直线来预测未来结果。例如:广告费越高,销售额可能越高,这种趋势可用一条直线表示。

2.2线性回归与机器学习的关系

        线性回归是机器学习中一种有监督学习(数据有x,有y)的算法,回归问题主要关注的是因变量--y(需要预测的值)和一个或多个数值型的自变量--x(特征变量)之间的关系。

        因变量和自变量之间的关系:即模型,model,就是我们要求解的系数。

2.3线性回归在数学和ai上的区别

        上面的方程式我们人类很多年以前就知道了,但是不叫人工智能算法,因为数学公式是理想状态,是100%对的,而人工智能是一种基于实际数据求解最优最接近实际的方程式,这个方程式带入实际数据计算后的结果是有误差的。

        举个例子:在日常生活中,我们选择吃烤肠的话,一般是3元一根,根据数学公式可得y=3x,如果你选择吃两根烤肠,理论上按照数学公式来说,你应该支付6元。但是日程生活中大部分商家为了吸引顾客,都是五元两根烤肠,这就与理论数学不一致。计算的结果存在误差。

2.4线性回归的目的

  • 预测连续值‌:比如预测房价、降雨量等数值型结果。
  • 量化变量关系‌:判断广告费对销售额的影响有多大,指导资源分配。

2.5线性回归的分类 

  • 一元线性回归‌:仅1个自变量(如广告费)和1个因变量(销售额),对应二维直线。

例如:

比如1个包子是2元 ,3个包子是6元 ,预测5个包子多少钱?

列出方程: y=wx+b,我们知道这是初中学习的一元线性方程‌(或‌一次函数‌),现在进行求解,

带入(1,2),(3,6):

2=w*1+b

6=w*3+b

轻易求得 w=2 b=0

模型(x与y的关系): y=2*x+0,现在我们就求得了回归系数w=2,b=0,完成了线性回归。

  • 多元线性回归‌:多个自变量(如广告费+季节+促销),对应多维空间中的“超平面”。

本文文章内容的第4项会进行介绍。

2.6如何实现线性回归

  • 找最合适的直线‌:这条直线需满足“所有点到直线的总误差最小”,常用最小二乘法计算,后续也会提及。

如图,我们要根据植物的生长温度x,去预测生长高度y,我们要找出最合适的直线拟合数据。使该直线能尽可能准确的描述环境温度与植物高度的关系。

  • 参数意义‌:直线方程为 Y = 截距 + 斜率×X。

三、损失函数

3.1引入

        根据上一个没解决的案例《植物温度与高度之间的关系》,我们继续拓展相关知识:

数据: [[4.2, 3.8],[4.2, 2.7],[2.7, 2.4],[0.8, 1.0],[3.7, 2.8],[1.7, 0.9],[3.2, 2.9]]

我们假设这个最优的方程是生活中无法满足实际结果的y=wx+b,这样的直线有无数条,因为现在w,b暂时没有确定,我们画出随意三条直线看看拟合情况:

 三条直线中选最优直线的方式:均方差

让直线的预测值y'与真实值y对比连竖直线,这个数值线的距离越小,效果越好,这条直线就是最优直线。

3.2误差

        在上图中,我们可以发现大部分实际点并没有在线上,因此他们之间的这个竖直竖线就是误差。预测值根据公式y=wx+b推理,

把x_1,x_2,x_3...带入进去 然后得出:

y1’,=wx_1+b

y2‘,=wx_2+b

y3’,=wx_3+b

...

第一条竖线的大小:计算y1-y1‘,表示第一个点的真实值和计算值的差值 。之后的竖线大小同理:把第二个点,第三个点...最后一个点的差值全部算出来。

3.2.1 定义

        ‌误差‌(Error)指的是 ‌预测值‌ 和 ‌真实值‌ 之间的差距。

3.2.2 公式

3.3损失

在上图中,有的点在上面有点在下面,如果直接相加有负数和正数会抵消,体现不出来总误差,平方后就不会有这个问题了。

3.3.1 定义

        ‌损失(Loss)‌ 是模型预测结果偏离真实值的 ‌量化指标‌,用来衡量模型预测的 ‌“错误程度”‌。

3.3.2 公式

3.4损失函数

现在我们已经得到了总误差,但是总误差会受到样本点的个数的影响,样本点越多,该值就越大,所以我们可以对其平均化,求得平均值,这样就能解决样本点个数不同带来的影响。

在公式中Yi表示实际值,wXi+b表示预测值。用减法是因为他们要得到损失。

3.5求最小损失函数的方法

损失函数越小,我们得到的效果就越好。

(1)初中韦达定理 --抛物线求顶点(-b/2a)

(2)高中求导数值为0

3.6小结

        损失即为总误差,误差就是真实值与理想值(预测值)之差,为了避免负数出现的情况下,可以用绝对值或者平方的形式处理这个差值。

        函数即自变量(x)与因变量(y)之间的关系.

        损失函数:量化模型预测与真实结果之间的差距‌。即要找到一个数学关系(模型),让x代入关系式,求得不同的y',让y'与真实值y做差。计算均方差MSE,求法为对所有误差的平方求和再除以样本点个数,得到一个开口向上的抛物线函数。

        针对b=0时,求最小的w可以用韦达定理(-b/2a)或求导得到。

        w越小,带入原函数y=wx,直线离真实点就越近。w越大,带入原函数y=wx,直线离真实点就越远。

        权重ω表示输入特征对输出结果的影响程度,决定了回归直线的斜率。

四、多参数回归

        在上一个案例中,我们讨论的是植物生产高度与温度的关系,但是实际上,植物高度的不仅仅有温度影响,还有海拔,湿度,光照等等因素。此时特征就不止一个了,列的方程也不止一个了。因此针对多参数回归有另一解决方法:

题目要求我们根据 各情况求最后一个人的健康程度,这是典型的多参数回归问题。

但是会发现,很难求解(如果非要硬算,也可以,那你加油!)

 根据前面说的内容,我们假设这个最优方程为:

 同样推到公式,将loss函数展开为与w权重系数有关的式子,如下形式:

 此时若能求的w,就能计算出最后一个人的健康程度。

关于如何求多参数回归的系数,下一博客再进行拓展。

相关文章:

机器学习-线性回归基础

一、什么是回归 依据输入x写出一个目标值y的计算方程,求回归系数的过程就叫回归。简言之:根据题意列出方程,求出系数的过程就叫做回归。 回归的目的是预测数值型的目标值y,分类的目的预测标称型的目标值y。 二、线性回归 2.1线性…...

自学嵌入式 day 25 - 系统编程 标准io 缓冲区 文件io

(3)二进制文件读写函数: ①fread: size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream); 功能:从指定的stream流对象中获取nmemeb个大小为size字节的数据块到ptr所在的本地内存中。 参数&…...

[Vue组件]半环进度显示器

[Vue组件]半环进度显示器 纯svg实现&#xff0c;不需要其他第三方库&#xff0c;功能简单&#xff0c;理论上现代浏览器都能支持 封装组件 所有参数都选填&#xff0c;进度都可选填 <template><div class"ys-semiring"><div class"svg-container…...

科技赋能建筑行业,智能楼宇自控系统崭露头角成发展新势力

在科技浪潮席卷全球的时代背景下&#xff0c;传统建筑行业正面临着前所未有的变革压力。随着城市化进程加快&#xff0c;建筑规模与复杂度不断攀升&#xff0c;能源消耗、运营效率、用户体验等问题日益凸显。智能楼宇自控系统凭借物联网、大数据、人工智能等前沿技术&#xff0…...

Rust入门之并发编程基础(一)

Rust入门之并发编程基础&#xff08;一&#xff09; 无畏并发 本文源码 安全且高效地处理并发编程是 Rust 的另一个主要目标。并发编程&#xff08;Concurrent programming&#xff09;&#xff0c;代表程序的不同部分相互独立地执行&#xff0c;而 并行编程&#xff08;par…...

高级特性实战:死信队列、延迟队列与优先级队列(二)

三、延迟队列&#xff1a;实现任务定时执行 3.1 延迟队列概念解析 延迟队列&#xff08;Delay Queue&#xff09;&#xff0c;是一种特殊的队列&#xff0c;它的独特之处在于队列中的元素&#xff08;消息&#xff09;并不会立即被处理&#xff0c;而是会在指定的延迟时间过后…...

VR 电缆故障测试系统:技术革新​

VR 电缆故障测试系统&#xff0c;作为电力领域的创新科技成果&#xff0c;融合了虚拟现实技术、三维建模、实时交互等前沿技术&#xff0c;为电缆故障测试带来了全新的解决方案。它的工作原理犹如一位经验丰富的侦探&#xff0c;通过层层线索&#xff0c;精准地锁定电缆故障的位…...

Rocky Linux上安装Go

使用官方二进制包安装 1. 下载 Go 官方二进制包 cd /tmp wget https://go.dev/dl/go1.22.3.linux-amd64.tar.gz2. 解压并安装到 /usr/local sudo rm -rf /usr/local/go # 如果之前有旧版本先删除 sudo tar -C /usr/local -xzf go1.22.3.linux-amd64.tar.gz3. 设置环境变量…...

深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models

深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models FastVLM: Efficient Vision Encoding for Vision Language Models PDF: https://www.arxiv.org/abs/2412.13303 PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https…...

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好&#xff0c;我是白杨SEO&#xff0c;专注SEO十年以上&#xff0c;全网SEO流量实战派&#xff0c;AI搜索优化研究者。 在开始写之前&#xff0c;先说个抱歉。 上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的&#xff0c;最开始上来确实是的。…...

显示docker桌面,vnc远程连接docker

目录 相关概念&#xff1a; 实现步骤&#xff1a; 1.启动docker容器 2.安装x11 3.Docker 容器中安装一个完整的图形桌面&#xff08;XFCE&#xff09;和 VNC 远程桌面服务器&#xff08;TightVNC&#xff09; 4.配置vncservice 5.本地安装VNC Viewer连接VNC Viewer下载地…...

Web 端顶级视效实现:山海鲸端渲染底层原理与发布模式详解

大家好&#xff0c;欢迎大家回到山海鲸的渲染模式系列教程。昨天&#xff0c;我们看了一下山海鲸支持的3种渲染模式的整体概览。今天&#xff0c;我们就来看一下山海鲸支持的最基础的渲染模式&#xff0c;也就是端渲染的渲染设置。 1. 山海鲸的端渲染 我们说到端渲染&#xf…...

腾讯云国际站性能调优

全球化业务扩张中&#xff0c;云端性能直接决定用户体验与商业成败。腾讯云国际站通过资源适配、网络优化与存储革新&#xff0c;为企业提供全链路调优方案。 ​​资源精准适配​​ 实例选型需与业务场景深度耦合&#xff0c;计算优化型实例加速AI训练效率3倍&#xff0c;内存…...

深入解析操作系统内核与用户空间以及内核态与用户态转换

用户空间和内核空间的划分是现代操作系统的基础&#xff0c;对应用程序网络模型的设计和优化有着深远的影响。 内核空间与用户空间的分工 现代操作系统为了保证系统的稳定性和安全性&#xff0c;将虚拟内存空间划分为用户空间和内核空间。 一、用户空间 用户空间是用户程序…...

每日一题洛谷P8662 [蓝桥杯 2018 省 AB] 全球变暖c++

P8662 [蓝桥杯 2018 省 AB] 全球变暖 - 洛谷 (luogu.com.cn) DFS #include<iostream> using namespace std; int n, res; char a[1005][1005]; bool vis[1005][1005]; bool flag; int dx[4] { 0,0,1,-1 }; int dy[4] { 1,-1,0,0 }; void dfs(int x, int y) {vis[x][y]…...

【JVM】初识JVM 从字节码文件到类的生命周期

初识JVM JVM&#xff08;Java Virtual Machine&#xff09;即 Java 虚拟机&#xff0c;是 Java 技术的核心组件之一。JVM的本质就是运行在计算机上的一个程序&#xff0c;通过软件模拟实现了一台抽象的计算机的功能。JVM是Java程序的运行环境&#xff0c;负责加载字节码文件&a…...

多级体验体系构建:基于开源AI智能客服与AI智能名片的S2B2C商城小程序体验升级路径研究

摘要&#xff1a;在体验经济时代&#xff0c;传统企业单一的总部体验模式难以覆盖全链路用户需求。本文针对B端与C端体验深度差异&#xff0c;提出“一级总部体验—二级区域体验—三级终端体验”的分层架构&#xff0c;并引入“开源AI智能客服”与“AI智能名片”技术&#xff0…...

每日算法 -【Swift 算法】字符串转整数算法题详解:myAtoi 实现与正则表达式对比

Swift 字符串转整数算法题详解&#xff1a;myAtoi 实现与正则表达式对比 &#x1f9e9; 题目背景 LeetCode 上的经典算法题 8. String to Integer (atoi) 是一道考察字符串解析与边界处理的题目。这道题虽看似简单&#xff0c;但处理细节相当复杂。我们将使用 Swift 语言实现…...

记录一个难崩的bug

1.后端配置了 Filter 过滤器&#xff0c;如果再配置了Configuration ,那么会出现冲突吗&#xff1f; 过滤器与Configuration类本身无直接冲突&#xff0c;但需注意注册机制、执行顺序和依赖管理。通过显式控制过滤器的注册方式和优先级&#xff0c;结合Spring Security的链式配…...

Git切换历史版本及Gitee云绑定

1、git介绍 Git是目前世界上最先进的分布式版本控制系统 Linux <- BitKeeper&#xff08;不是开源的&#xff0c;但免费的&#xff0c;后来要收费&#xff09; Linus Torvalds(林纳斯托瓦兹) 两周时间吧&#xff0c;弄了个 Git&#xff1b;大约一个月就把Linux代码从BitK…...

智能外呼系统中 NLP 意图理解的工作原理与技术实现

智能外呼系统通过整合语音识别&#xff08;ASR&#xff09;、自然语言处理&#xff08;NLP&#xff09;和语音合成&#xff08;TTS&#xff09;等技术&#xff0c;实现了自动化的电话交互。其中&#xff0c;NLP 意图理解是核心模块&#xff0c;负责解析用户话语中的语义和意图&…...

服务器的IP是什么东西?

一、什么是服务器的IP地址&#xff1f; 服务器的IP地址是互联网协议&#xff08;Internet Protocol&#xff09;的缩写&#xff0c;是服务器在网络中的唯一数字标识符。它类似于现实生活中的门牌号&#xff0c;用于标识服务器在网络中的位置&#xff0c;使其他设备能够通过它与…...

[问题解决]:Unable to find image ‘containrrr/watchtower:latest‘ locally

一&#xff0c;问题 在使用docker安装部署新应用的时候&#xff0c;报错&#xff1a;Unable to find image containrrr/watchtower:latest locally 分析认为是当前docker的资源库里找不到这个软件的镜像&#xff0c;需要配置一个包含这个软件镜像的新的资源库。 二&#xff0…...

【文件上传】阿里云对象存储服务实现文件上传

一、基础 上传到本地&#xff1a; package org.example.controller;import lombok.extern.slf4j.Slf4j; import org.example.pojo.Result; import org.springframework.web.bind.annotation.PostMapping; import org.springframework.web.bind.annotation.RequestMapping; imp…...

IPv6代理如何引领下一代网络未来

随着互联网技术的不断发展&#xff0c;IPv6逐渐成为下一代网络协议的核心&#xff0c;替代IPv4已是大势所趋。IPv6代理作为IPv6网络环境下的重要工具&#xff0c;为用户提供了更高效、更安全的网络解决方案。 IPv6代理的定义 IPv6代理是在IPv6网络环境中为处理IPv4转换和其他网…...

Linux——数据链路层

1. 认识以太网 认知&#xff1a;以太网是用于局域网数据通信的协议标准&#xff0c;定义了同一局域网内通过电缆/无线怎么在设备之间传输数据帧。 注&#xff1a;整个网络世界可以具象看出由许许多多的局域网组成&#xff0c; • 家庭中的设备A and 家庭中的设备B and 家庭路由…...

ubuntu 22.04 安装下载

ubuntu 22.04下载安装及相关配置_ubuntu22.04下载-CSDN博客...

深度学习面试八股简略速览

在准备深度学习面试时&#xff0c;你可能会感到有些不知所措。毕竟&#xff0c;深度学习是一个庞大且不断发展的领域&#xff0c;涉及众多复杂的技术和概念。但别担心&#xff0c;本文将为你提供一份全面的指南&#xff0c;从基础理论到实际应用&#xff0c;帮助你在面试中脱颖…...

【深度学习-pytorch篇】1. Pytorch矩阵操作与DataSet创建

Pytorch矩阵操作与DataSet创建 1. Python 环境配置 1.1 安装 Anaconda 推荐使用 Anaconda 来管理 Python 环境&#xff0c;访问官网下载安装&#xff1a; https://www.anaconda.com/download/success 1.2 安装 PyTorch 请根据自己的系统平台&#xff08;Windows/Linux/ma…...

游戏引擎学习第310天:利用网格划分完成排序加速优化

回顾并为今天的内容做个铺垫 昨天我们完成了一个用于排序的空间划分系统&#xff0c;但还没有机会真正利用它。昨天的工作刚好在结束时才完成&#xff0c;所以今天我们打算正式使用这个空间划分来加速排序。 现在我们在渲染代码中&#xff0c;可以看到在代码底部隐藏着一个“…...