当前位置：首页 > article >正文

【数据挖掘】岭回归（Ridge Regression）和线性回归（Linear Regression）对比实验

article 2026/2/1 11:45:31

这是一个非常实用的 岭回归（Ridge Regression）和线性回归（Linear Regression）对比实验，使用了 scikit-learn 中的 California Housing 数据集 来预测房价。

📦 第一步：导入必要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltfrom sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing as fch

🔹 Ridge, Lasso, LinearRegression：三种回归模型
🔹 fetch_california_housing：加载加州房价数据集
🔹 train_test_split：划分训练集和测试集
🔹 matplotlib.pyplot：画图

🏠 第二步：加载数据并观察

house_value = fch()
X = pd.DataFrame(house_value.data)
y = house_value.target
X.columns = ["住户收入中位数", "房屋使用年代中位数", "平均房间数目", "平均卧室数目", "街区人口", "平均入住率", "街区垢纬度", "街区的经度"]Xtmp = X.copy()
Xtmp['价格'] = y
display(Xtmp)

✅ 将数据转换为 DataFrame 并设置列名，更方便分析。
✅ display(Xtmp) 会在 Jupyter Notebook 中以表格形式展示数据。

✂️ 第三步：划分训练集和测试集

xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=420)
for i in [xtrain, xtest]:i.index = range(i.shape[0])  # 重置索引，避免索引错乱

✅ 划分比例为 70% 训练 + 30% 测试
✅ 重置索引是个好习惯，有利于数据对齐

🧮 第四步：使用 Ridge 回归进行建模和评估

reg = Ridge(alpha=5).fit(xtrain, ytrain)
r2_score = reg.score(xtest, ytest)
print("r2:%.8f" % r2_score)

🔹 这里用岭回归拟合训练集，使用 alpha=5 作为正则化系数。
🔹 reg.score() 返回的是 R²（决定系数），衡量模型拟合效果，越接近 1 越好。

🔁 第五步：不同 alpha 下 Ridge 与普通线性回归对比

from sklearn.model_selection import cross_val_score
alpha_range = np.arange(1, 1001, 100)
ridge, lr = [], []for alpha in alpha_range:reg = Ridge(alpha=alpha)linear = LinearRegression()# 用交叉验证评估两种模型的平均 R²regs = cross_val_score(reg, X, y, cv=5, scoring='r2').mean()linears = cross_val_score(linear, X, y, cv=5, scoring='r2').mean()ridge.append(regs)lr.append(linears)

🔍 cross_val_score：使用 5 折交叉验证，平均 R² 得分

ridge.append()：记录不同 alpha 下岭回归得分
lr.append()：记录普通线性回归得分（其实是一个水平线）

📈 第六步：可视化 Ridge 与 Linear 回归对比结果

plt.plot(alpha_range, ridge, c='red', label='Ridge')
plt.plot(alpha_range, lr, c='orange', label='LR')
plt.title('Mean')
plt.legend()
plt.ylabel('R2')
plt.show()

✅ 横轴是 alpha，纵轴是交叉验证 R²
✅ 岭回归的性能随着 alpha 变化，线性回归是常数线
✅ 可以直观对比正则化对模型的影响

📌 总结这个实验做了什么？

步骤	作用
加载数据	得到特征和标签
建立模型	使用岭回归拟合预测房价
模型评估	输出 R² 指数
交叉验证	比较岭回归与线性回归的表现随 alpha 变化的趋势
可视化	看不同 alpha 对 Ridge 的影响，并与线性回归对比

✅ 建议拓展方向

可以继续做这些改进：

加入标准化（StandardScaler）：防止特征量纲影响回归权重；
尝试 Lasso 回归：看看稀疏化是否会带来更优的模型；
绘制训练误差与测试误差对比图：分析是否过拟合；
使用 GridSearchCV 自动调参：找到最优 alpha。

以下是一个完整的房价预测回归分析代码，包含：

岭回归（Ridge）
Lasso 回归
普通线性回归
标准化处理（StandardScaler）
网格搜索调参（GridSearchCV）
模型评分比较
可视化对比

✅ 完整代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score# 1. 加载数据
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target# 2. 数据划分
xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 特征标准化
scaler = StandardScaler()
xtrain_scaled = scaler.fit_transform(xtrain)
xtest_scaled = scaler.transform(xtest)# 4. 定义回归模型
models = {"LinearRegression": LinearRegression(),"Ridge": Ridge(),"Lasso": Lasso()
}# 5. 设置超参数搜索空间
param_grid = {"Ridge": {"alpha": np.logspace(-3, 3, 20)},"Lasso": {"alpha": np.logspace(-3, 3, 20)}
}# 6. 模型训练与调参
best_models = {}
for name, model in models.items():if name in param_grid:print(f"正在搜索最优参数：{name}")grid = GridSearchCV(model, param_grid[name], cv=5, scoring="r2")grid.fit(xtrain_scaled, ytrain)best_models[name] = grid.best_estimator_print(f"{name} 最佳 alpha: {grid.best_params_['alpha']:.4f}")else:model.fit(xtrain_scaled, ytrain)best_models[name] = model# 7. 模型评估
print("\n模型性能对比（R² 得分）：")
for name, model in best_models.items():score = model.score(xtest_scaled, ytest)print(f"{name}: R² = {score:.4f}")# 8. 可视化对比
r2_scores = [model.score(xtest_scaled, ytest) for model in best_models.values()]
model_names = list(best_models.keys())plt.figure(figsize=(8, 5))
plt.bar(model_names, r2_scores, color=["orange", "red", "green"])
plt.ylabel("R²")
plt.title("不同回归模型性能对比")
for i, score in enumerate(r2_scores):plt.text(i, score + 0.01, f"{score:.4f}", ha='center')
plt.ylim(0, max(r2_scores) + 0.1)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

📊 输出内容包括：

每种模型的 R² 得分
Ridge 和 Lasso 的最佳 alpha（正则项系数）
一张柱状图对比三种模型在测试集上的表现

【数据挖掘】岭回归（Ridge Regression）和线性回归（Linear Regression）对比实验

这是一个非常实用的岭回归（Ridge Regression）和线性回归（Linear Regression）对比实验，使用了 scikit-learn 中的 California Housing 数据集来预测房价。 📦 第一步：导入必要的库 import num…...

编程日记 2026/1/31 10:55:48

前言：为什么要学习爬虫和逆向，该如何学习？

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、为什么要学习爬虫与逆向？1.1 核心价值1.2 爬虫和应用场景对比1.3 逆向工程的应用场景二、爬虫技术学习路径2.1 基础阶段：包括原理、采集、解析和入库整套流程2.2 中级阶段：反爬对抗2.3 高级阶段：高效爬虫三、逆…...

编程日记 2025/11/7 13:33:42

CExercise_07_1指针和数组_1编写函数交换数组中两个下标的元素

题目： 要求编写函数将数组作为参数传递来实现： 1.编写函数交换数组中两个下标的元素。函数声明如下：void swap(int *arr, int i, int j) 。要求不使用[]运算符，将[]还原成解引用运算符和指针加法来完成。关键点通过指针交换数组…...

编程日记 2026/2/1 1:57:02

塔能科技：智能路灯物联运维产业发展现状与趋势分析

随着智慧城市建设的推进，智能路灯物联运维产业正经历快速发展，市场规模持续扩大。文章探讨了智能路灯物联运维的技术体系、市场机遇和挑战，并预测了未来发展趋势，为行业发展提供参考。关键词智能路灯；物联运维&#…...

编程日记 2026/1/24 13:13:08

解决 DBeaver 中 “Public Key Retrieval is not allowed“ 错误

解决 DBeaver 中 “Public Key Retrieval is not allowed” 错误在 DBeaver 中遇到这个 MySQL 连接错误时，可以通过以下方法解决： 方法1：编辑连接配置在 DBeaver 中右键点击有问题的 MySQL 连接，选择编辑连接(Edit Connecti…...

编程日记 2026/1/9 21:13:10

ZW3D二次开发_普通对话框_设置对话框弹出位置

ZW3D的普通对话框可以在UI设计时静态地设置对话框弹出的位置，方法如下： 选中对话框的最顶级对象，即ZsCc::Form对象，在属性管理器中添加一个动态属性“form_pos”，类型为“StringList”，如下图所示不同属性…...

编程日记 2026/1/24 8:12:36

低代码开发「JNPF」应用场景

政务系统快速搭建在数字化政务转型的浪潮下，JNPF 快速开发平台扮演着关键角色，为政府部门提供了高效且便捷的审批流程自动化解决方案。以 “一网通办” 为例，通过平台的可视化拖拽式配置功能，政府工作人员能够将原本复杂繁琐的…...

编程日记 2026/1/24 14:52:03

Arch视频播放CPU占用高

Arch Linux配置视频硬件加速 - DDoSolitary’s Blog 开源神器：加速你的视频体验 —— libvdpau-va-gl-CSDN博客 VDPAU（Video Decode and Presentation API for Unix） VA-API（Video Acceleration API） OpenGL 我的电…...

编程日记 2025/8/26 6:42:38

欧拉函数模板

1.欧拉函数模板 - 蓝桥云课问题描述这是一道模板题。首先给出欧拉函数的定义：即 Φ(n) 表示的是小于等于 n 的数中和 n 互质的数的个数。比如说 Φ(6)2，当 n 是质数的时候，显然有 Φ(n)n−1。题目大意： 给定 n 个正整数…...

编程日记 2026/1/24 14:27:51

【资料分享】全志T536（异构多核ARMCortex-A55+玄铁E907 RISC-V）工业核心板说明书

核心板简介创龙科技SOM-TLT536是一款基于全志科技T536MX-CEN2/T536MX-CXX四核ARM Cortex-A55 +...

编程日记 2025/6/15 17:08:10

屏幕空间反射SSR-笔记

屏幕空间反射SSR 相关文章： [OpenGL] 屏幕空间反射效果 Games202-RealTime GI in Screen Space github上的例子，使用visual studio2019 github例子对应的文章使用OpenGL和C实现发光柱子的SSR倒影下面是一个使用OpenGL和C实现屏幕空间反射(SSR)来创建…...

编程日记 2026/1/24 14:43:55

动态规划算法深度解析：0-1背包问题（含完整流程）

简介： 0-1背包问题是经典的组合优化问题：给定一组物品（每个物品有重量和价值），在背包容量限制下选择物品装入背包，要求总价值最大化且每个物品不可重复选取。动态规划核心思想通过构建二维状态表dp[i]…...

编程日记 2026/1/29 2:36:51

LeetCode刷题SQL笔记

系列博客目录文章目录系列博客目录1.distinct关键字去除重复2.char_length()3.group by 与 count()连用4.date类型有个函数datediff()5.mod 函数6.join和left join的区别1. **JOIN（内连接，INNER JOIN）**示例： 2. **LEFT JOIN&a…...

编程日记 2026/1/24 7:59:10

如何使用 IntelliJ IDEA 开发命令行程序（或 Swing 程序）并手动管理依赖（不使用 pom.xml）

以下是详细步骤： 1. 创建项目 1.1 打开 IntelliJ IDEA。 1.2 在启动界面，点击 Create New Project（创建新项目）。 1.3 选择 Java，然后点击 Next。 1.4 确保 Project SDK 选择了正确的 JDK 版本&#x…...

编程日记 2025/7/15 1:22:03

循环神经网络 - 参数学习之随时间反向传播算法

本文中，我们以同步的序列到序列模式为例来介绍循环神经网络的参数学习。循环神经网络中存在一个递归调用的函数 𝑓(⋅)，因此其计算参数梯度的方式和前馈神经网络不太相同。在循环神经网络中主要有两种计算梯度的方式：随时间反向…...

编程日记 2026/2/1 0:27:17

球类（继承和多态）

父类Ball，设置为抽象类，调用get和set方法创建对象，将子类重写的功能函数抽象化。 // 抽象球类 abstract class Ball {private String name;private double radius; // 半径private double weight; // 重量private double price; // 价格// 构…...

编程日记 2026/1/24 14:34:55

dfs dfs金典例题理解就是走迷宫 P1605 迷宫 - 洛谷 dfs本质上在套一个模版： ///dfs #include<bits/stdc.h> using namespace std; int a[10][10]{0}; int m,n,t,ans0; int ex,ey; int v[10][10]{0}; int dx[4]{-1,0,1,0}; int dy[4]{0,1,0,-1}; void dfs(in…...

编程日记 2026/1/29 11:13:42

Ansible Playbook 进阶探秘：Handlers、变量、循环及条件判断全解析

192.168.60.100ansible.com192.168.60.110 client-1.com 192.168.60.120client-2.com192.168.60.130client-1.com 一、Handlers 介绍：在发生改变时执行的操作(类似puppet通知机制) 示例： 当apache的配置文件发生改变时，apache服务才会重启…...

编程日记 2026/1/27 3:40:57

大模型ui设计SVG输出

你是一位资深 SVG 绘画设计师，现需根据以下产品需求创建SVG方案： 产品需求约拍app 画板尺寸： 宽度：375px（基于提供的HTML移动设计）高度：812px（iPhone X/XS 尺寸） 配…...

编程日记 2025/8/29 21:26:43

40--华为IPSec VPN实战指南：构建企业级加密通道

🛡️ 华为IPSec VPN实战指南：构建企业级加密通道 “当数据开始穿盔甲，黑客只能望’密’兴叹” —— 本文将手把手教你用华为设备搭建军用级加密隧道，从零开始构建网络长城！ 文章目录 🛡️ 华为IPSec VPN实战…...

编程日记 2026/1/13 19:15:16

基于分布式指纹引擎的矩阵运营技术实践：突破平台风控的工程化解决方案

一、矩阵运营的技术痛点与市场现状风控机制升级主流平台通过复合指纹识别（Canvas渲染哈希WebGL元数据AudioContext频率分析）检测多账号关联传统方案成本：单个亚马逊店铺因关联封号月均损失$5000，矩阵规模越大风险指数级增长 …...

编程日记 2026/1/7 4:20:35

MATLAB的24脉波整流器Simulink仿真与故障诊断

本博客来源于CSDN机器鱼，未同意任何人转载。更多内容，欢迎点击本专栏目录，查看更多内容。目录 0 引言 1 故障数据采集 2 故障特征提取 3 故障诊断分类 4 结语本博客内容是在MATLAB2023下完成。 0 引言对于电力电子电路的故障诊断…...

编程日记 2026/1/29 7:57:06

linux第三次作业

1、将你的虚拟机的网卡模式设置为nat模式，给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 2、测试你的虚拟机是否能够ping通网关和dns，如果不能请修改网关和dns的地址 3、将如下内容写入/etc/hosts文件中（如果有多个ip地址则写多行&…...

编程日记 2026/1/30 5:15:42

国标GB28181视频平台EasyCVR顺应智慧农业自动化趋势，打造大棚实时视频监控防线

一、方案背景近年来，温室大棚种植技术凭借其显著的优势，在提升农作物产量和质量、丰富农产品供应方面发挥了重要的作用，极大改善了人们的生活水平，得到了广泛的推广和应用。大棚内的温度、湿度、光照度和二氧化碳浓度等环境因素…...

编程日记 2026/1/29 2:23:04

HOW - 如何测试 React 代码

目录一、使用 React 测试库：testing-library/react二、使用测试演练场：testing-playground.com三、使用 Cypress 或 Playwright 进行端到端测试四、使用 MSW 在测试中模拟网络请求一、使用 React 测试库：testing-library/react testing-li…...

编程日记 2025/8/26 0:55:28

LU分解原理与C++实现：从理论到实践

LU分解原理与C++实现：从理论到实践 a. LU分解基础理论矩阵的LU分解在数值计算领域占据着举足轻重的地位，它不仅是解决线性方程组的有力工具，还在众多科学与工程问题中发挥着关键作用。从数学定义来看，LU分解是将一个方阵 A A A 分解为一个单位下三角矩阵 L L L 和一个…...

编程日记 2026/1/27 15:19:39

【Vue3知识】组件间通信的方式

组件间通信的方式概述**1. 父子组件通信****父组件向子组件传递数据（Props）****子组件向父组件发送事件（自定义事件）** **2. 兄弟组件通信****通过父组件中转****使用全局状态管理（如 Pinia 或 Vuex）** **…...

编程日记 2025/8/24 15:47:57

HOOPS Visualize：跨平台、高性能的三维图形渲染技术解析

在当今数字化时代，三维可视化技术已成为众多行业的核心竞争力。HOOPS Visualize作为一款功能强大的三维图形渲染引擎，凭借其卓越的渲染能力、跨平台支持、丰富的交互功能、高度定制化以及快速部署等特性，为开发人员提供了构建高质量、高性能3…...

编程日记 2026/2/1 6:09:10

git 的常用指令

以下是 Git 命令分类大全，覆盖日常开发、团队协作和高级操作场景，按功能分类整理： 一、配置与初始化命令说明git config --global user.name "Your Name"设置全局用户名git config --global user.email "emailexample.com&q…...

编程日记 2025/12/26 3:14:18

python学智能算法（九）|决策树深入理解

【1】引言前序学习进程中，初步理解了决策树的各个组成部分，此时将对决策树做整体解读，以期实现深入理解。各个部分的解读文章链接为： python学智能算法（八）|决策树-CSDN博客【2】代码【2.1】完整代…...

编程日记 2025/12/24 3:39:28