当前位置：首页 > article >正文

线性回归之多项式升维

article 2026/2/8 9:33:39

文章目录

多项式升维简介
简单案例
实战案例
多项式升维优缺点

多项式升维简介

多项式升维（Polynomial Expansion）是线性回归中一种常用的特征工程方法，它通过将原始特征进行多项式组合来扩展特征空间，从而让线性模型能够拟合非线性关系。
标准的线性回归模型形式为：
$y = w_{0} + w_{1} x_{1} + w_{2} x_{2} + ... + w_{n} x_{n} + ε$
多项式升维通过创建原始特征的高次项和交互项来扩展模型：
$w_dx^d + ε$
升维的目的是为了解决欠拟合的问题（提高模型的准确率），因为当维度不够时，对于预测结果考虑的因素不足，不能准确的计算出模型。
在做升维的时候，最常见的手段就是将已知维度进行相乘来构建新的维度，如下图所示。下图左展示的是线性不可分的情况，下图右通过升维使得变得线性可分。
多项式回归是机器学习中一种特殊的升维技术，虽然它可以被视为一种算法，但和归一化类似，通常被归类为数据预处理手段。在scikit-learn库中，它被放置在sklearn.preprocessing模块下。其核心原理是通过将原始特征进行组合（包括特征自身的乘积），生成二阶或更高阶的新特征，从而扩展特征空间。
命名为"回归"的原因主要源于它常与线性回归配合使用。标准的线性回归模型旨在捕捉X和y之间的线性关系，但当数据呈现非线性特征时，我们有两种解决方案：

改用非线性模型（如回归树、神经网络等）直接拟合数据
坚持使用线性模型，但通过特征工程将数据转化为线性可分的形态

线性模型具有计算效率高的显著优势。通过多项式升维，我们既保留了线性模型的快速计算特性，又使其能够适应更复杂的数据分布。以医疗费用预测为例：当用年龄预测医疗支出时，若费用随年龄呈二次曲线增长（老年人医疗成本加速上升），简单的线性关系无法准确描述，这时多项式特征就能有效捕捉这种非线性模式。

Data 数据-->Algorithm 算法-->Model模型
Data 线性-->Algorithm 线性-->Model Good
Data 非线性-->Algorithm 非线性-->Model Good
Data 非线性-->Algorithm 线性-->Model Bad
Data 非线性-->Data线性--Algorithm 线性-->Model Good

在这里插入图片描述
$\hat y=w_0+w_1x_1+w_2x_2$
$\hat y=w_0+w_1x_1+w_2x_2+w_3x_{1}^{2}+w_4x_{2}^{2}+w_5x_1x_2$

简单案例

单变量多项式回归

from sklearn.preprocessing import PolynomialFeatures
import numpy as np# 假设我们有单变量数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)# 创建二次多项式特征
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

多变量多项式回归

# 假设有双变量数据
X = np.array([[1, 2], [3, 4], [5, 6]])# 创建二次多项式特征（包括交互项）
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)

实战案例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 设置支持中文的字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = Falsenp.random.seed(42)
m = 1000
X = 6 * np.random.rand(m, 1) - 3
Y = 0.5 * X ** 2 + X + 2 + np.random.randn(m, 1)# 数据集的划分 训练集和测试集
X_train = X[:800]
X_test = X[800:]
Y_train = Y[:800]
Y_test = Y[800:]# 真实数据
plt.plot(X, Y, 'b.', label='真实数据')
plt.title("真实数据分布")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()
# plt.show()# 构建字典 保证后面使用一阶、二阶、十阶多项回归的时候可以使用不同的图示
my_dict = {1: 'g-', 2: 'r+', 10: 'y*'}# 循环执行 数据预处理、模型训练、模型评估
for i in my_dict:ploy_feature = PolynomialFeatures(degree=i, include_bias=True)X_poly_train = ploy_feature.fit_transform(X_train)X_poly_test = ploy_feature.fit_transform(X_test)print(f"第{i}阶的多项式回归")print('原始数据集')print(X_train[0])print("升维数据集", )print(X_poly_train[0])print('原始数据集维度')print(X_train.shape)print('升维数据集维度')print(X_poly_train.shape)lin_reg = LinearRegression(fit_intercept=False)lin_reg.fit(X_poly_train, Y_train)print(lin_reg.intercept_, lin_reg.coef_)Y_train_predict = lin_reg.predict(X_poly_train)Y_test_predict = lin_reg.predict(X_poly_test)plt.plot(X_train, Y_train_predict, my_dict[i], label=f'{i}阶拟合曲线')print("训练集的均方误差")print(mean_squared_error(Y_train, Y_train_predict))print("测试集的均方误差")print(mean_squared_error(Y_test, Y_test_predict))print("======")plt.title(f"多项式回归拟合结果 (最高阶数: {max(my_dict.keys())})")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()
plt.show()# 新增: 绘制检验效果模型的图标
plt.figure(figsize=(12, 6))
for i in my_dict:ploy_feature = PolynomialFeatures(degree=i, include_bias=True)X_poly_train = ploy_feature.fit_transform(X_train)X_poly_test = ploy_feature.fit_transform(X_test)lin_reg = LinearRegression(fit_intercept=False)lin_reg.fit(X_poly_train, Y_train)Y_train_predict = lin_reg.predict(X_poly_train)Y_test_predict = lin_reg.predict(X_poly_test)# 训练集和测试集的拟合曲线plt.subplot(1, 2, 1)plt.plot(X_train, Y_train_predict, my_dict[i], label=f'{i}阶训练集拟合曲线')plt.scatter(X_train, Y_train, color='blue', s=10, label='训练集数据')plt.subplot(1, 2, 2)plt.plot(X_test, Y_test_predict, my_dict[i], label=f'{i}阶测试集拟合曲线')plt.scatter(X_test, Y_test, color='red', s=10, label='测试集数据')plt.subplot(1, 2, 1)
plt.title("训练集拟合效果")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()plt.subplot(1, 2, 2)
plt.title("测试集拟合效果")
plt.xlabel("特征值 X")
plt.ylabel("目标值 Y")
plt.legend()plt.tight_layout()
plt.show()

在这里插入图片描述

多项式升维优缺点

优点：

拟合非线性关系：让线性模型能够捕捉数据中的非线性模式
灵活性：通过调整degree参数控制模型的复杂度
保持线性模型优势：仍然可以使用正规方程等线性回归的优化方法

缺点：

维度灾难：随着特征数量和degree增加，特征空间会急剧膨胀
过拟合风险：高阶多项式容易过拟合训练数据
外推性能差：多项式模型在训练数据范围外的预测可能不可靠

线性回归之多项式升维

文章目录多项式升维简介简单案例实战案例多项式升维优缺点多项式升维简介多项式升维（Polynomial Expansion）是线性回归中一种常用的特征工程方法，它通过将原始特征进行多项式组合来扩展特征空间，从而让线性模型能够拟合非线性关…...

编程日记 2026/2/1 14:21:31

【上位机——MFC】运行时类信息机制

运行时类信息机制的使用类必须派生自CObject类内必须添加声明宏DECLARE_DYNAMIC(theClass)3.类外必须添加实现宏 IMPLEMENT_DYNAMIC(theClass,baseClass) 具备上述三个条件后，CObject::IsKindOf函数就可以正确判断对象是否属于某个类。代码示例 #include <…...

编程日记 2025/12/8 17:06:14

POSIX多线程，解锁高性能编程

在计算机编程的广阔领域中，POSIX 标准就像是一把通用的钥匙，开启了跨平台编程的大门。POSIX，即 Portable Operating System Interface（可移植操作系统接口） ，是 IEEE 为了规范各种 UNIX 操作系统提供的 API…...

编程日记 2025/12/9 18:23:48

服务器： import socket from multiprocessing import Process from threading import Threaduser_dic {}def send_recv(client_conn, client_addr):while 1:# 接收客户端发送的消息res client_conn.recv(1024).decode("utf-8")print("客户端发送…...

编程日记 2025/12/8 1:23:47

颠覆传统！毫秒级响应的跨平台文件同步革命，远程访问如本地操作般丝滑

文章目录前言1. 安装Docker2. Go File使用演示3. 安装cpolar内网穿透4. 配置Go File公网地址5. 配置Go File固定公网地址前言在这个信息爆炸的时代，谁不曾遭遇过类似的窘境呢？试想，当你正于办公室中埋首案牍时，手机突然弹出一…...

编程日记 2026/2/2 13:53:11

CrewAI Community Version(一)——初步了解以及QuickStart样例

目录 1. CrewAI简介1.1 CrewAI Crews1.2 CrewAI Flows1.3 Crews和Flows的使用情景 2. CrewAI安装2.1 安装uv2.2 安装CrewAI CLI 3. 官网QuickStart样例3.1 创建CrewAI Crews项目3.2 项目结构3.3 .env3.4 智能体角色及其任务3.4.1 agents.yaml3.4.2 tasks.yaml 3.5 crew.py3.6 m…...

编程日记 2026/2/2 0:11:08

蓝桥杯 18.分考场

分考场原题目链接题目描述有 n 个人参加某项特殊考试。为了公平，要求任何两个认识的人不能分在同一个考场。你的任务是求出最少需要分几个考场才能满足这个条件。输入描述第一行：一个整数 n，表示参加考试的人数（1 ≤…...

编程日记 2025/12/7 23:06:43

1. ubuntu20.04 终端实现 ros的输出 (C++,Python）

本节对应赵虚左ROS书籍的1.3.1-->1.3.3 1）创建一个工作空间 2）创建一个功能包和导入依赖 3）编辑源文件 4）编辑配置文件 5）编译和执行 1）创建一个工作空间 mkdir -p catkin_ws/src cd catkin_ws ca…...

编程日记 2026/1/9 4:06:56

Nginx下搭建rtmp流媒体服务并使用HLS或者OBS测试

所需下载地址： 通过网盘分享的文件：rtmp 链接: https://pan.baidu.com/s/1t21J7cOzQR1ASLrsmrYshA?pwd0000 提取码: 0000 window： 解压 win目录下的 nginx-rtmp-module-1.2.2.zip和nginx 1.7.11.3 Gryphon.zip安装包，解压时选…...

编程日记 2026/2/1 16:10:19

vue vite打完包后依然想保留某个文件夹下的console.log方便以后的观察的详细做法

首先需要安装包 npm i terser rollup/plugin-strip 具体的包如下： "rollup/plugin-strip": "^3.0.4","terser": "^5.39.0", // 这个不用也行如果不用则需要将build中的minify和terserOptions一并删除了然后在vite.co…...

编程日记 2026/1/19 10:50:54

Lateral 查询详解：概念、适用场景与普通 JOIN 的区别

1. 什么是Lateral查询？ Lateral查询（也称为横向关联查询）是一种特殊的子查询，允许子查询中引用外层查询的列（即关联引用），并在执行时逐行对外层查询的每一行数据执行子查询。语法上通常使用关…...

编程日记 2026/2/5 23:26:48

[langchain教程]langchain03——用langchain构建RAG应用

RAG RAG过程离线过程： 加载文档将文档按一定条件切割成片段将切割的文本片段转为向量，存入检索引擎（向量库） 在线过程： 用户输入Query，将Query转为向量从向量库检索，获得相似度TopN信息将…...

编程日记 2026/1/8 4:35:07

Web 前端包管理工具深度解析：npm、yarn、pnpm 全面对比与实战建议

引言: 在现代web前端开发中,包管理工具的重要性不言而喻,无论是构建项目脚手架,安装ui库,管理依赖版本,还是实现monorepo项目结构,一个高效稳定的包管理工具都会大幅提升开发体验和协作效率作为一名前端工程师,深入了解这些工具背后的机制与差异,对于提升项目可维护性和团队…...

编程日记 2026/2/5 11:26:32

【springsecurity oauth2授权中心】简单案例跑通流程 P1

项目被拆分开，需要一个授权中心使得每个项目都去授权中心登录获取用户权限。而单一项目里权限使用的是spring-security来控制的，每个controller方法上都有 PreAuthorize("hasAuthority(hello)") 注解来控制权限，想以最小的改动来实…...

编程日记 2026/2/7 1:26:01

spark—SQL3

连接方式内嵌Hive： 使用时无需额外操作，但实际生产中很少使用。外部Hive： 在虚拟机下载相关配置文件，在spark-shell中连接需将hive-site.xml拷贝到conf/目录并修改url、将MySQL驱动copy到jars/目录、把core-site.xml和hdfs-sit…...

编程日记 2026/2/7 20:42:05

Linux-scp命令

scp（Secure Copy Protocol）是基于 SSH 的安全文件传输命令，用于在本地和远程主机之间加密传输文件或目录。以下是详细用法和示例： 基本语法 scp [选项] 源文件目标路径常用选项选项描述-P 端口号指定 SSH 端口（默认…...

编程日记 2026/2/6 6:20:41

【PyQt5】@QtCore.pyqtSlot()的作用

在 PyQt5 中，QtCore.pyqtSlot() 是一个装饰器，用于将普通的 Python 方法标记为可被信号连接的槽函数。它的主要作用是： 1. 标识槽函数核心作用：告诉 PyQt 这个方法是一个槽（Slot），可以被信号…...

编程日记 2025/11/15 7:09:34

Go语言中的Context

目录 Go语言中的Context 1. Context的基本概念 1.1 Context的核心作用 2. Context的基本用法 2.1 创建Context 背景Context 可取消的Context 带有超时的Context 2.2 在Goroutine间传递Context 2.3 获取Context的值为Context添加自定义数据访问Context中的值 3. C…...

编程日记 2025/12/8 19:23:24

小刚说C语言刷题——1039 求三个数的最大数

1.题目描述已知有三个不等的数，将其中的最大数找出来。输入输入只有一行，包括3个整数。之间用一个空格分开。输出输出只有一行（这意味着末尾有一个回车符号），包括1个整数。样例输入 1 5 8 输出 8 2.…...

编程日记 2025/12/8 2:18:13

一文了解相位阵列天线中的真时延

本文要点真时延是宽带带相位阵列天线的关键元素之一。真时延透过在整个信号频谱上应用可变相移来消除波束斜视现象。在相位阵列中使用时延单元或电路板，以提供波束控制和相移。市场越来越需要更快、更可靠的通讯网络，而宽带通信系统正在努力满…...

编程日记 2026/2/5 5:17:41

在 UE5 编辑器中，由于游戏设置 -＞ EV100 设置，点击播放前后的光照不同。如何保持点击播放前后的光照一致？

In Unreal Engine 5 (UE5), discrepancies in lighting between the editor and play modes are often due to auto exposure settings, particularly when using the EV100 system. To maintain consistent lighting across both modes, follow these steps:YouTube1Epic …...

编程日记 2025/12/8 13:48:50

线性回归之多项式升维

文章目录

多项式升维简介

简单案例

实战案例

多项式升维优缺点

相关文章：

线性回归之多项式升维

【上位机——MFC】运行时类信息机制

POSIX多线程，解锁高性能编程

利用TCP+多进程技术实现私聊信息

颠覆传统！毫秒级响应的跨平台文件同步革命，远程访问如本地操作般丝滑

CrewAI Community Version(一)——初步了解以及QuickStart样例

蓝桥杯 18.分考场

1. ubuntu20.04 终端实现 ros的输出 (C++,Python）

Nginx下搭建rtmp流媒体服务并使用HLS或者OBS测试

vue vite打完包后依然想保留某个文件夹下的console.log方便以后的观察的详细做法

Lateral 查询详解：概念、适用场景与普通 JOIN 的区别

[langchain教程]langchain03——用langchain构建RAG应用

Web 前端包管理工具深度解析：npm、yarn、pnpm 全面对比与实战建议

【springsecurity oauth2授权中心】简单案例跑通流程 P1

spark—SQL3

Linux-scp命令

【PyQt5】@QtCore.pyqtSlot()的作用

Go语言中的Context

小刚说C语言刷题——1039 求三个数的最大数

一文了解相位阵列天线中的真时延

在 UE5 编辑器中，由于游戏设置 -＞ EV100 设置，点击播放前后的光照不同。如何保持点击播放前后的光照一致？

Git 配置 GPG 提交签名

linux学习 5 正则表达式及通配符

eplan许可证与版本兼容性问题

【Easylive】AdminFilter 详细解析

纷析云开源财务软件：助力企业实现数字化自主权

基于超启发鲸鱼优化算法的混合神经网络多输入单输出回归预测模型 HHWOA-CNN-LSTM-Attention

解决使用hc595驱动LED数码管亮度低的问题

【Linux】轻量级命令解释器minishell

Android RK356X TVSettings USB调试开关