当前位置：首页 > article >正文

线性回归与随机梯度下降(SGD)的Python实现

article 2026/4/23 2:03:34

1. 线性回归与随机梯度下降基础解析线性回归是机器学习领域最基础且应用最广泛的算法之一。它的核心思想是通过线性组合输入特征来预测连续型输出值。在实际应用中我们经常会遇到需要从零开始实现算法的情况这不仅有助于深入理解算法原理也能为后续更复杂模型的实现打下坚实基础。1.1 线性回归数学模型线性回归模型的数学表达式为 y b₀ b₁x₁ b₂x₂ ... bₙxₙ其中y 是预测值因变量b₀ 是截距项偏置b₁到bₙ是各个特征的系数权重x₁到xₙ是输入特征自变量这个看似简单的公式实际上构成了许多复杂模型的基础组件。在Python中实现时我们需要特别关注系数的高效计算和更新方式。1.2 随机梯度下降原理随机梯度下降(Stochastic Gradient Descent, SGD)是优化线性回归系数的核心方法。与传统的梯度下降不同SGD每次只使用一个训练样本来更新参数这带来了几个显著优势计算效率高特别适合大规模数据集在线学习能力可以实时处理新到达的数据逃离局部最优随机性有助于跳出局部最小值参数更新公式为 bᵢ bᵢ - η*(ŷ - y)*xᵢ其中η是学习率控制每次更新的步长。选择合适的学习率至关重要——过大会导致震荡过小则收敛缓慢。2. 从零实现线性回归2.1 预测函数实现我们先实现核心的预测函数这是整个模型的基础def predict(row, coefficients): yhat coefficients[0] # 截距项 for i in range(len(row)-1): yhat coefficients[i 1] * row[i] return yhat这个函数接收一行数据和当前系数返回预测值。注意系数数组的第一个元素始终是截距项b₀它不与任何特定特征相乘。提示在实际项目中可以考虑使用NumPy的向量化运算来优化这个计算过程特别是当特征维度很高时。2.2 系数更新实现接下来实现SGD的核心部分——系数更新def coefficients_sgd(train, l_rate, n_epoch): coef [0.0 for _ in range(len(train[0]))] # 初始化系数 for epoch in range(n_epoch): sum_error 0 for row in train: yhat predict(row, coef) error yhat - row[-1] # 计算误差 sum_error error**2 # 累计平方误差 # 更新截距项 coef[0] coef[0] - l_rate * error # 更新特征系数 for i in range(len(row)-1): coef[i 1] coef[i 1] - l_rate * error * row[i] print(fEpoch {epoch}, lrate {l_rate}, error {sum_error}) return coef这个实现有几个关键点值得注意系数初始化为0实践中也可以使用小随机数每个epoch会完整遍历整个训练集对每个样本都会立即更新系数记录了每个epoch的总平方误差用于监控训练过程3. 葡萄酒质量预测实战3.1 数据准备与预处理葡萄酒质量数据集包含4898个样本每个样本有11个化学特征和1个质量评分。我们需要先进行数据预处理def load_csv(filename): dataset [] with open(filename, r) as file: csv_reader reader(file) for row in csv_reader: if not row: continue dataset.append(row) return dataset def normalize_dataset(dataset): minmax [[min(col), max(col)] for col in zip(*dataset)] for row in dataset: for i in range(len(row)): row[i] (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0]) return dataset数据标准化的步骤至关重要它将所有特征缩放到[0,1]范围避免某些特征因尺度较大而主导模型训练。3.2 交叉验证实现我们使用5折交叉验证来评估模型性能def cross_validation_split(dataset, n_folds): dataset_split [] dataset_copy list(dataset) fold_size len(dataset) // n_folds for _ in range(n_folds): fold [] while len(fold) fold_size: index randrange(len(dataset_copy)) fold.append(dataset_copy.pop(index)) dataset_split.append(fold) return dataset_split交叉验证能更可靠地评估模型性能特别是对于中小规模数据集。我们使用RMSE均方根误差作为评估指标def rmse_metric(actual, predicted): sum_error sum((p - a)**2 for p, a in zip(predicted, actual)) return (sum_error / len(actual))**0.53.3 完整训练流程将各个组件组合起来形成完整训练流程def linear_regression_sgd(train, test, l_rate, n_epoch): coef coefficients_sgd(train, l_rate, n_epoch) predictions [predict(row, coef) for row in test] return predictions # 主程序 seed(1) dataset load_csv(winequality-white.csv) dataset [[float(x) for x in row] for row in dataset] normalize_dataset(dataset) n_folds 5 l_rate 0.01 n_epoch 50 scores evaluate_algorithm(dataset, linear_regression_sgd, n_folds, l_rate, n_epoch) print(Mean RMSE:, sum(scores)/len(scores))4. 调优与问题排查4.1 超参数调优经验在实际应用中我们发现几个关键调优点学习率选择常用范围在0.0001到0.1之间可以尝试学习率衰减策略如η η₀/(1kt)训练轮数监控验证集误差当误差不再明显下降时停止通常需要50-1000轮取决于数据复杂度特征工程添加多项式特征可以捕捉非线性关系特征选择能提高模型泛化能力4.2 常见问题与解决方案模型不收敛检查学习率是否过大确认数据是否已标准化验证梯度计算是否正确过拟合增加L2正则化岭回归使用早停策略减少特征数量训练速度慢实现mini-batch SGD使用向量化运算考虑并行化4.3 性能优化技巧经过多次实践我总结了几个提升实现效率的技巧向量化实现# 向量化预测函数示例 def predict_vectorized(X, coef): return X coef[1:] coef[0]使用生成器处理大数据def batch_generator(data, batch_size): for i in range(0, len(data), batch_size): yield data[i:ibatch_size]缓存机制对于重复访问的数据可以缓存预处理结果5. 算法扩展与改进5.1 批量梯度下降实现除了SGD还可以实现批量梯度下降def coefficients_bgd(train, l_rate, n_epoch, batch_size): coef [0.0] * len(train[0]) for epoch in range(n_epoch): for batch in batch_generator(train, batch_size): gradients [0.0] * len(coef) for row in batch: error predict(row, coef) - row[-1] gradients[0] error # 截距项梯度 for i in range(len(row)-1): gradients[i1] error * row[i] # 批量更新 coef [c - l_rate * g/len(batch) for c, g in zip(coef, gradients)] return coef5.2 正则化线性回归为了防止过拟合可以添加L2正则化def coefficients_sgd_l2(train, l_rate, n_epoch, lambda_): coef [0.0] * len(train[0]) for _ in range(n_epoch): for row in train: yhat predict(row, coef) error yhat - row[-1] # 更新截距项(不应用正则化) coef[0] coef[0] - l_rate * error # 更新特征系数(应用L2正则化) for i in range(len(row)-1): coef[i1] coef[i1] - l_rate * (error * row[i] lambda_ * coef[i1]) return coef5.3 其他回归数据集实践这套实现可以轻松扩展到其他回归问题波士顿房价预测糖尿病进展预测股票价格预测关键是要根据具体问题调整数据预处理方式特征工程策略模型评估指标在实现这些算法时我深刻体会到魔鬼在细节中的道理。一个看似简单的线性回归要获得好的预测效果需要注意数据预处理的每个环节仔细调校每个超参数并且要充分理解算法背后的数学原理。这也许就是机器学习既充满挑战又令人着迷的原因。

线性回归与随机梯度下降(SGD)的Python实现

相关文章：

线性回归与随机梯度下降(SGD)的Python实现

在VMware里给银河麒麟Kylin-Server-V10-SP3装VMTools，我踩了这些坑（附完整解决流程）

高并发场景下 Spring MVC + 虚拟线程 vs WebFlux 选型对比

别再为K-Means选K值发愁了！手把手教你用Python的sklearn库和肘部法则搞定最优聚类数

Python静态分析工具Pylint、Flake8与Mypy实战指南

Python中PCA降维技术详解与应用实战

VR党建蛋椅|以沉浸式体验推动党建学习方式创新

5个免费优质神经网络学习资源推荐

3分钟生成合法宝可梦：AutoLegalityMod插件完全指南

智能手机传感器数据建模与人类活动识别技术解析

一天一个开源项目（第80篇）：Browser Harness - 让 AI 智能体拥有“手”与“眼”的轻量化浏览器桥梁

3步上手CoolProp：开源热力学计算库的完全指南

终极动画观看体验：Hanime1Plugin Android插件完整指南

从思想萌芽到智能觉醒：人工智能发展七十年演进史

量子计算中的稳定器范围：原理与应用

实战：自动化数据分析报表 Agent Harness

QMCDecode：重构数字音乐自由，解锁QQ音乐加密格式的终极方案

JSON提示工程：提升LLM交互效率的关键技术

登录无法连接sqlserver数据库手顺

AI如何通过MRI识别中风前兆：ConvNeXt 3D卷积网络技术解析

ASR时间戳验证：Qwen3-ForcedAligner-0.6B对比识别结果，评估精度更客观

Phi-3.5-mini-instruct开源模型：MIT许可可商用可二次微调

深度学习损失函数选择指南：从原理到实践

【实战解析】FTK Imager：被低估的取证级数据恢复利器

Stable Diffusion插画创作：从模型选型到商业应用

机器学习数据预处理：标准化与归一化实战指南

多类别不平衡分类问题与SMOTE技术实践

Ubuntu的apt命令详解：系统管理的核心工具

字母数字Unicode转换器：防范搬运、复制

指定文件夹批量带密码压缩工具：功能详解与使用指南