当前位置：首页 > article >正文

PyTorch回归模型实战：加州房价预测教程

article 2026/4/26 22:25:15

1. 从零构建PyTorch回归模型加州房价预测实战在深度学习领域PyTorch因其动态计算图和直观的API设计备受开发者青睐。今天我将分享如何用PyTorch构建一个完整的神经网络回归模型以预测加州房价为例。这个案例特别适合刚接触PyTorch的开发者因为房价预测问题直观易懂同时涵盖了数据预处理、模型构建、训练优化等核心环节。关键提示本文假设读者已掌握Python基础语法和机器学习基本概念无需PyTorch前置经验。所有代码均提供详细解释可直接复现。2. 项目环境与数据准备2.1 环境配置首先确保安装以下Python库推荐使用Python 3.8pip install torch sklearn matplotlib pandas numpy tqdm2.2 数据集解析我们使用sklearn内置的加州房价数据集该数据集包含20,640个样本每个样本有8个特征MedInc区块收入中位数HouseAge房屋年龄中位数AveRooms平均房间数AveBedrms平均卧室数Population区块人口AveOccup平均居住人数Latitude纬度Longitude经度目标变量是1990年的房屋中位价单位10万美元。特征尺度差异显著如房间数通常为个位数而人口可达数千这对模型训练提出了挑战。加载数据代码from sklearn.datasets import fetch_california_housing data fetch_california_housing() X, y data.data, data.target # X.shape(20640,8), y.shape(20640,)3. 基础模型构建3.1 网络架构设计采用经典的金字塔结构全连接网络import torch.nn as nn model nn.Sequential( nn.Linear(8, 24), # 输入层→隐藏层1 nn.ReLU(), nn.Linear(24, 12), # 隐藏层1→隐藏层2 nn.ReLU(), nn.Linear(12, 6), # 隐藏层2→隐藏层3 nn.ReLU(), nn.Linear(6, 1) # 输出层无激活函数 )设计要点输出层不使用激活函数因为回归问题需要连续值输出隐藏层使用ReLU激活避免梯度消失同时保持非线性能力神经元数量逐层递减24→12→6防止信息冗余3.2 训练配置import torch.optim as optim loss_fn nn.MSELoss() # 均方误差损失 optimizer optim.Adam(model.parameters(), lr0.0001) # Adam优化器4. 完整训练流程实现4.1 数据预处理from sklearn.model_selection import train_test_split import torch # 划分训练集/测试集 (70%/30%) X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42) # 转换为PyTorch张量并调整形状 X_train torch.tensor(X_train, dtypetorch.float32) y_train torch.tensor(y_train, dtypetorch.float32).reshape(-1, 1) X_test torch.tensor(X_test, dtypetorch.float32) y_test torch.tensor(y_test, dtypetorch.float32).reshape(-1, 1)4.2 训练循环实现import copy import numpy as np from tqdm import tqdm n_epochs 100 batch_size 32 best_mse float(inf) history [] for epoch in range(n_epochs): model.train() for i in range(0, len(X_train), batch_size): # 获取当前batch X_batch X_train[i:ibatch_size] y_batch y_train[i:ibatch_size] # 前向传播 y_pred model(X_batch) loss loss_fn(y_pred, y_batch) # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() # 每个epoch结束后评估测试集 model.eval() with torch.no_grad(): y_pred model(X_test) mse loss_fn(y_pred, y_test).item() history.append(mse) # 保存最佳模型 if mse best_mse: best_mse mse best_weights copy.deepcopy(model.state_dict()) # 加载最佳权重 model.load_state_dict(best_weights) print(fBest MSE: {best_mse:.4f}, RMSE: {np.sqrt(best_mse):.4f})5. 模型优化技巧5.1 数据标准化原始特征尺度差异会导致训练困难使用StandardScaler进行标准化from sklearn.preprocessing import StandardScaler scaler StandardScaler() X_train_scaled scaler.fit_transform(X_train.numpy()) X_test_scaled scaler.transform(X_test.numpy()) # 重新转换为张量 X_train torch.tensor(X_train_scaled, dtypetorch.float32) X_test torch.tensor(X_test_scaled, dtypetorch.float32)5.2 优化后性能对比版本MSERMSE训练稳定性原始数据0.470.68波动较大标准化后0.290.54收敛平稳标准化使RMSE提升约20%且训练曲线更平滑。6. 高级改进方向6.1 损失函数优化对于房价预测考虑使用Huber损失或对数变换# Huber损失对异常值更鲁棒 loss_fn nn.HuberLoss(delta1.0) # 或者对目标值取对数 y_train_log torch.log(y_train) y_test_log torch.log(y_test)6.2 网络结构优化尝试以下改进添加BatchNorm层加速收敛nn.Sequential( nn.Linear(8, 24), nn.BatchNorm1d(24), nn.ReLU(), ... )使用Dropout防止过拟合nn.Sequential( ... nn.Linear(24, 12), nn.Dropout(0.2), nn.ReLU(), ... )7. 模型部署与推理训练完成后保存模型并实现推理# 保存模型 torch.save({ model_state: model.state_dict(), scaler: scaler }, housing_model.pth) # 加载模型进行预测 def predict(new_data): new_data: numpy数组形状为(n,8) model.eval() with torch.no_grad(): scaled_data scaler.transform(new_data) tensor_data torch.tensor(scaled_data, dtypetorch.float32) predictions model(tensor_data) return predictions.numpy()8. 常见问题排查8.1 训练损失不下降检查学习率尝试1e-4到1e-2验证数据是否正常打印样本检查确认梯度更新打印参数梯度8.2 模型预测值异常检查输出层是否误用激活函数验证输入数据预处理一致性确保推理时调用model.eval()8.3 性能提升瓶颈尝试增加网络深度/宽度调整batch size通常32-256使用学习率调度器我在实际项目中发现对于房价预测问题将经纬度特征转换为地理聚类特征如使用KMeans生成区域编号能进一步提升模型性能约5-8%。这启示我们特征工程与模型架构同样重要。

PyTorch回归模型实战：加州房价预测教程

相关文章：

PyTorch回归模型实战：加州房价预测教程

告别视频质量损失：LosslessCut如何用无损剪辑技术重塑视频处理体验

【独家首发】MCP 2026适配Checklist V2.3（工信部智能网联汽车准入预审备案专用版）

Python零基础入门学习之输入与输出

华硕笔记本终极优化指南：用G-Helper一键解决性能与色彩问题！[特殊字符]

Docker AI Toolkit 2026安全配置黄金清单（2026年CIS Benchmark官方对标版）

FLUX.1-Krea-Extracted-LoRA生成艺术展：多风格LoRA效果对比鉴赏

终极Windows安装指南：MediaCreationTool.bat一键突破所有版本限制

DeepEval终极指南：如何用40+指标构建专业的LLM评估框架

2026年Hermes Agent/OpenClaw怎么部署？新手部署及token Plan配置详解

Matplotlib 柱形图：老板，这柱不是我画的，是数据自己长的

容器化AI沙箱部署效率提升73%的关键配置，，从DevOps到SecOps的12项黄金参数调优

一 kettle 一世界，一 spoon 一流程

SuperDesign：IDE内AI设计助手，自然语言生成UI与代码

高效QMC音频解密方案：qmc-decoder完整技术指南与跨平台实践

Steam创意工坊模组下载终极指南：WorkshopDL让你跨平台畅玩模组

java面试必问25：强引用、软引用、弱引用、虚引用：从Java对象生命周期到内存优化

java面试必问24：Java 垃圾回收机制：从对象判死到分代回收，一篇讲透

Linux /tmp 目录管理

AI智能体开发实战：AgentGym平台架构解析与自定义智能体接入指南

MS2130芯片HDMI采集棒性能解析与应用指南

springboot和Vue3的体育馆场地预约管理系统的设计与实现

碳交易与需求响应双轮驱动的综合能源系统优化运行软件

AI Summit London 2022参会价值与实战策略

【数据结构】图-----关键路径

为什么你的AI容器仍能读取宿主机GPU内存？一文讲透nvidia-container-runtime沙箱边界漏洞（含PoC修复验证）

为什么92%的边缘项目在Docker WASM迁移中失败？6步标准化流程+4类典型崩溃日志诊断图谱

2026届毕业生推荐的十大AI辅助论文网站解析与推荐

如何快速掌握OpenFace面部行为分析：新手到专家的完整实战指南

B站视频下载终极指南：轻松获取4K大会员视频的完整教程