线性回归之多项式升维
文章目录
- 多项式升维简介
- 简单案例
- 实战案例
- 多项式升维优缺点
多项式升维简介
-
多项式升维(Polynomial Expansion)是线性回归中一种常用的特征工程方法,它通过将原始特征进行多项式组合来扩展特征空间,从而让线性模型能够拟合非线性关系。
-
标准的线性回归模型形式为:
y = w 0 + w 1 x 1 + w 2 x 2 + . . . + w n x n + ε y = w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ + ε y=w0+w1x1+w2x2+...+wnxn+ε -
多项式升维通过创建原始特征的高次项和交互项来扩展模型:
y = w 0 + w 1 x + w 2 x 2 + . . . + w d x d + ε y = w₀ + w₁x + w₂x² + ... + w_dx^d + ε y=w0+w1x+w2x2+...+wdxd+ε -
升维的目的是为了解决欠拟合的问题(提高模型的准确率),因为当维度不够时,对于预测结果考虑的因素不足,不能准确的计算出模型。

-
在做升维的时候,最常见的手段就是将已知维度进行相乘来构建新的维度,如下图所示。下图左展示的是线性不可分的情况,下图右通过升维使得变得线性可分。

-
多项式回归是机器学习中一种特殊的升维技术,虽然它可以被视为一种算法,但和归一化类似,通常被归类为数据预处理手段。在scikit-learn库中,它被放置在
sklearn.preprocessing模块下。其核心原理是通过将原始特征进行组合(包括特征自身的乘积),生成二阶或更高阶的新特征,从而扩展特征空间。 -
命名为"回归"的原因主要源于它常与线性回归配合使用。标准的线性回归模型旨在捕捉X和y之间的线性关系,但当数据呈现非线性特征时,我们有两种解决方案:
- 改用非线性模型(如回归树、神经网络等)直接拟合数据
- 坚持使用线性模型,但通过特征工程将数据转化为线性可分的形态
- 线性模型具有计算效率高的显著优势。通过多项式升维,我们既保留了线性模型的快速计算特性,又使其能够适应更复杂的数据分布。以医疗费用预测为例:当用年龄预测医疗支出时,若费用随年龄呈二次曲线增长(老年人医疗成本加速上升),简单的线性关系无法准确描述,这时多项式特征就能有效捕捉这种非线性模式。
Data 数据-->Algorithm 算法-->Model模型
Data 线性-->Algorithm 线性-->Model Good
Data 非线性-->Algorithm 非线性-->Model Good
Data 非线性-->Algorithm 线性-->Model Bad
Data 非线性-->Data线性--Algorithm 线性-->Model Good

y ^ = w 0 + w 1 x 1 + w 2 x 2 \hat y=w_0+w_1x_1+w_2x_2 y^=w0+w1x1+w2x2
y ^ = w 0 + w 1 x 1 + w 2 x 2 + w 3 x 1 2 + w 4 x 2 2 + w 5 x 1 x 2 \hat y=w_0+w_1x_1+w_2x_2+w_3x_{1}^{2}+w_4x_{2}^{2}+w_5x_1x_2 y^=w0+w1x1+w2x2+w3x12+w4x22+w5x1x2
简单案例
- 单变量多项式回归
from sklearn.preprocessing import PolynomialFeatures
import numpy as np# 假设我们有单变量数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)# 创建二次多项式特征
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)
- 多变量多项式回归
# 假设有双变量数据
X = np.array([[1, 2], [3, 4], [5, 6]])# 创建二次多项式特征(包括交互项)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)
实战案例
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 设置支持中文的字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = Falsenp.random.seed(42)
m = 1000
X = 6 * np.random.rand(m, 1) - 3
Y = 0.5 * X ** 2 + X + 2 + np.random.randn(m, 1)# 数据集的划分 训练集和测试集
X_train = X[:800]
X_test = X[800:]
Y_train = Y[:800]
Y_test = Y[800:]# 真实数据
plt.plot(X, Y, 'b.', label='真实数据')
plt.title("真实数据分布")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()
# plt.show()# 构建字典 保证后面使用一阶、二阶、十阶多项回归的时候可以使用不同的图示
my_dict = {1: 'g-', 2: 'r+', 10: 'y*'}# 循环执行 数据预处理、模型训练、模型评估
for i in my_dict:ploy_feature = PolynomialFeatures(degree=i, include_bias=True)X_poly_train = ploy_feature.fit_transform(X_train)X_poly_test = ploy_feature.fit_transform(X_test)print(f"第{i}阶的多项式回归")print('原始数据集')print(X_train[0])print("升维数据集", )print(X_poly_train[0])print('原始数据集维度')print(X_train.shape)print('升维数据集维度')print(X_poly_train.shape)lin_reg = LinearRegression(fit_intercept=False)lin_reg.fit(X_poly_train, Y_train)print(lin_reg.intercept_, lin_reg.coef_)Y_train_predict = lin_reg.predict(X_poly_train)Y_test_predict = lin_reg.predict(X_poly_test)plt.plot(X_train, Y_train_predict, my_dict[i], label=f'{i}阶拟合曲线')print("训练集的均方误差")print(mean_squared_error(Y_train, Y_train_predict))print("测试集的均方误差")print(mean_squared_error(Y_test, Y_test_predict))print("======")plt.title(f"多项式回归拟合结果 (最高阶数: {max(my_dict.keys())})")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()
plt.show()# 新增: 绘制检验效果模型的图标
plt.figure(figsize=(12, 6))
for i in my_dict:ploy_feature = PolynomialFeatures(degree=i, include_bias=True)X_poly_train = ploy_feature.fit_transform(X_train)X_poly_test = ploy_feature.fit_transform(X_test)lin_reg = LinearRegression(fit_intercept=False)lin_reg.fit(X_poly_train, Y_train)Y_train_predict = lin_reg.predict(X_poly_train)Y_test_predict = lin_reg.predict(X_poly_test)# 训练集和测试集的拟合曲线plt.subplot(1, 2, 1)plt.plot(X_train, Y_train_predict, my_dict[i], label=f'{i}阶训练集拟合曲线')plt.scatter(X_train, Y_train, color='blue', s=10, label='训练集数据')plt.subplot(1, 2, 2)plt.plot(X_test, Y_test_predict, my_dict[i], label=f'{i}阶测试集拟合曲线')plt.scatter(X_test, Y_test, color='red', s=10, label='测试集数据')plt.subplot(1, 2, 1)
plt.title("训练集拟合效果")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()plt.subplot(1, 2, 2)
plt.title("测试集拟合效果")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()plt.tight_layout()
plt.show()

多项式升维优缺点
优点:
- 拟合非线性关系:让线性模型能够捕捉数据中的非线性模式
- 灵活性:通过调整degree参数控制模型的复杂度
- 保持线性模型优势:仍然可以使用正规方程等线性回归的优化方法
缺点:
- 维度灾难:随着特征数量和degree增加,特征空间会急剧膨胀
- 过拟合风险:高阶多项式容易过拟合训练数据
- 外推性能差:多项式模型在训练数据范围外的预测可能不可靠
相关文章:
线性回归之多项式升维
文章目录 多项式升维简介简单案例实战案例多项式升维优缺点 多项式升维简介 多项式升维(Polynomial Expansion)是线性回归中一种常用的特征工程方法,它通过将原始特征进行多项式组合来扩展特征空间,从而让线性模型能够拟合非线性关…...
【上位机——MFC】运行时类信息机制
运行时类信息机制的使用 类必须派生自CObject类内必须添加声明宏DECLARE_DYNAMIC(theClass)3.类外必须添加实现宏 IMPLEMENT_DYNAMIC(theClass,baseClass) 具备上述三个条件后,CObject::IsKindOf函数就可以正确判断对象是否属于某个类。 代码示例 #include <…...
POSIX多线程,解锁高性能编程
在计算机编程的广阔领域中,POSIX 标准就像是一把通用的钥匙,开启了跨平台编程的大门。POSIX,即 Portable Operating System Interface(可移植操作系统接口) ,是 IEEE 为了规范各种 UNIX 操作系统提供的 API…...
利用TCP+多进程技术实现私聊信息
服务器: import socket from multiprocessing import Process from threading import Threaduser_dic {}def send_recv(client_conn, client_addr):while 1:# 接收客户端发送的消息res client_conn.recv(1024).decode("utf-8")print("客户端发送…...
颠覆传统!毫秒级响应的跨平台文件同步革命,远程访问如本地操作般丝滑
文章目录 前言1. 安装Docker2. Go File使用演示3. 安装cpolar内网穿透4. 配置Go File公网地址5. 配置Go File固定公网地址 前言 在这个信息爆炸的时代,谁不曾遭遇过类似的窘境呢?试想,当你正于办公室中埋首案牍时,手机突然弹出一…...
CrewAI Community Version(一)——初步了解以及QuickStart样例
目录 1. CrewAI简介1.1 CrewAI Crews1.2 CrewAI Flows1.3 Crews和Flows的使用情景 2. CrewAI安装2.1 安装uv2.2 安装CrewAI CLI 3. 官网QuickStart样例3.1 创建CrewAI Crews项目3.2 项目结构3.3 .env3.4 智能体角色及其任务3.4.1 agents.yaml3.4.2 tasks.yaml 3.5 crew.py3.6 m…...
蓝桥杯 18.分考场
分考场 原题目链接 题目描述 有 n 个人参加某项特殊考试。 为了公平,要求任何两个认识的人不能分在同一个考场。 你的任务是求出最少需要分几个考场才能满足这个条件。 输入描述 第一行:一个整数 n,表示参加考试的人数(1 ≤…...
1. ubuntu20.04 终端实现 ros的输出 (C++,Python)
本节对应赵虚左ROS书籍的1.3.1-->1.3.3 1)创建一个工作空间 2)创建一个功能包和导入依赖 3)编辑源文件 4)编辑配置文件 5)编译和执行 1)创建一个工作空间 mkdir -p catkin_ws/src cd catkin_ws ca…...
Nginx下搭建rtmp流媒体服务 并使用HLS或者OBS测试
所需下载地址: 通过网盘分享的文件:rtmp 链接: https://pan.baidu.com/s/1t21J7cOzQR1ASLrsmrYshA?pwd0000 提取码: 0000 window: 解压 win目录下的 nginx-rtmp-module-1.2.2.zip和nginx 1.7.11.3 Gryphon.zip安装包,解压时选…...
vue vite打完包后依然想保留某个文件夹下的console.log方便以后的观察的详细做法
首先需要安装包 npm i terser rollup/plugin-strip 具体的包如下: "rollup/plugin-strip": "^3.0.4","terser": "^5.39.0", // 这个不用也行 如果不用则需要将build中的minify和terserOptions一并删除了然后在vite.co…...
Lateral 查询详解:概念、适用场景与普通 JOIN 的区别
1. 什么是Lateral查询? Lateral查询(也称为横向关联查询)是一种特殊的子查询,允许子查询中引用外层查询的列(即关联引用),并在执行时逐行对外层查询的每一行数据执行子查询。 语法上通常使用关…...
[langchain教程]langchain03——用langchain构建RAG应用
RAG RAG过程 离线过程: 加载文档将文档按一定条件切割成片段将切割的文本片段转为向量,存入检索引擎(向量库) 在线过程: 用户输入Query,将Query转为向量从向量库检索,获得相似度TopN信息将…...
Web 前端包管理工具深度解析:npm、yarn、pnpm 全面对比与实战建议
引言: 在现代web前端开发中,包管理工具的重要性不言而喻,无论是构建项目脚手架,安装ui库,管理依赖版本,还是实现monorepo项目结构,一个高效稳定的包管理工具都会大幅提升开发体验和协作效率 作为一名前端工程师,深入了解这些工具背后的机制与差异,对于提升项目可维护性和团队…...
【springsecurity oauth2授权中心】简单案例跑通流程 P1
项目被拆分开,需要一个授权中心使得每个项目都去授权中心登录获取用户权限。而单一项目里权限使用的是spring-security来控制的,每个controller方法上都有 PreAuthorize("hasAuthority(hello)") 注解来控制权限,想以最小的改动来实…...
spark—SQL3
连接方式 内嵌Hive: 使用时无需额外操作,但实际生产中很少使用。 外部Hive: 在虚拟机下载相关配置文件,在spark-shell中连接需将hive-site.xml拷贝到conf/目录并修改url、将MySQL驱动copy到jars/目录、把core-site.xml和hdfs-sit…...
Linux-scp命令
scp(Secure Copy Protocol)是基于 SSH 的安全文件传输命令,用于在本地和远程主机之间加密传输文件或目录。以下是详细用法和示例: 基本语法 scp [选项] 源文件 目标路径常用选项 选项描述-P 端口号指定 SSH 端口(默认…...
【PyQt5】@QtCore.pyqtSlot()的作用
在 PyQt5 中,QtCore.pyqtSlot() 是一个装饰器,用于将普通的 Python 方法标记为 可被信号连接的槽函数。它的主要作用是: 1. 标识槽函数 核心作用:告诉 PyQt 这个方法是一个槽(Slot),可以被信号…...
Go语言中的Context
目录 Go语言中的Context 1. Context的基本概念 1.1 Context的核心作用 2. Context的基本用法 2.1 创建Context 背景Context 可取消的Context 带有超时的Context 2.2 在Goroutine间传递Context 2.3 获取Context的值 为Context添加自定义数据 访问Context中的值 3. C…...
小刚说C语言刷题——1039 求三个数的最大数
1.题目描述 已知有三个不等的数,将其中的最大数找出来。 输入 输入只有一行,包括3个整数。之间用一个空格分开。 输出 输出只有一行(这意味着末尾有一个回车符号),包括1个整数。 样例 输入 1 5 8 输出 8 2.…...
一文了解相位阵列天线中的真时延
本文要点 真时延是宽带带相位阵列天线的关键元素之一。 真时延透过在整个信号频谱上应用可变相移来消除波束斜视现象。 在相位阵列中使用时延单元或电路板,以提供波束控制和相移。 市场越来越需要更快、更可靠的通讯网络,而宽带通信系统正在努力满…...
在 UE5 编辑器中,由于游戏设置 -> EV100 设置,点击播放前后的光照不同。如何保持点击播放前后的光照一致?
In Unreal Engine 5 (UE5), discrepancies in lighting between the editor and play modes are often due to auto exposure settings, particularly when using the EV100 system. To maintain consistent lighting across both modes, follow these steps:YouTube1Epic …...
Git 配置 GPG 提交签名
使用 GPG 对 Git 提交进行签名,可以证明该提交确实是你本人提交的。这在团队协作和代码审核中非常有用,GitHub/GitLab 等平台也会显示 “Verified” 标签。 🧩 一、检查是否已安装 GPG gpg --version 如果未安装,可使用以下命令…...
linux学习 5 正则表达式及通配符
重心应该放在通配符的使用上 正则表达式 正则表达式是用于 文本匹配和替换 的强大工具 介绍两个交互式的网站来学习正则表达式 regexlearn 支持中文 regexone 还有一个在线测试的网址 regex101 基本规则 符号作用示例.匹配任何字符除了换行a.b -> axb/a,b[abc]匹配字符…...
eplan许可证与版本兼容性问题
在使用EPLAN电气设计软件时,确保许可证与软件版本之间的兼容性至关重要。不兼容的许可证可能导致软件无法正常运行,影响工作效率。本文将为您深入解析EPLAN许可证与版本兼容性问题,并提供解决方案,确保您的软件始终处于最佳状态。…...
【Easylive】AdminFilter 详细解析
【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 AdminFilter 详细解析 AdminFilter 是一个 Spring Cloud Gateway 的过滤器,用于在请求到达微服务之前进行 权限校验(如管理员 Token 验证)。以下是逐行解…...
纷析云开源财务软件:助力企业实现数字化自主权
在数字化转型浪潮中,企业财务管理面临高成本、低灵活性、数据孤岛等痛点。纷析云开源财务软件(项目地址:https://gitee.com/shenxji/fxy)凭借其开源基因与模块化设计,为企业提供了一条“低成本、高可控”的数字化路径。…...
基于超启发鲸鱼优化算法的混合神经网络多输入单输出回归预测模型 HHWOA-CNN-LSTM-Attention
基于超启发鲸鱼优化算法的混合神经网络多输入单输出回归预测模型 HHWOA-CNN-LSTM-Attention 随着人工智能技术的飞速发展,回归预测任务在很多领域得到了广泛的应用。尤其在金融、气象、医疗等领域,精确的回归预测模型能够为决策者提供宝贵的参考信息。为…...
解决使用hc595驱动LED数码管亮度低的问题
不知道大家在做项目的时候有没有遇到使用hc595驱动LED数码管亮度低的问题(数码管位数较多),如果大佬们有好的方法的可以评论区留言 当时我们解决是换成了天微的驱动芯片,现在还在寻找新的解决办法(主要软件不花钱&…...
【Linux】轻量级命令解释器minishell
Minishell 一、项目背景 在linux操作系统中,用户对操作系统进行的一系列操作都不能直接操作内核,而是通过shell间接对内核进行操作。 Shell 是操作系统中的一种程序,它为用户提供了一种与操作系统内核和计算机硬件进行交互的界面。用户可以通…...
Android RK356X TVSettings USB调试开关
Android RK356X TVSettings USB调试开关 平台概述操作-打开USB调试实现源码补充说明 平台 RK3568 Android 11 概述 RK3568 是瑞芯微(Rockchip)推出的一款高性能处理器,支持 USB OTG(On-The-Go)和 USB Host 功能。US…...
