当前位置：首页 > news >正文

机器学习模型--线性回归、逻辑回归、分类

news 2026/2/9 6:35:20

一、线性回归

级别1：简单一元线性回归（手工实现）

import numpy as np
import matplotlib.pyplot as plt# 生成数据
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])# 手动实现梯度下降
def gradient_descent(X, y, lr=0.01, epochs=1000):w, b = 0, 0  # 初始化参数n = len(X)for _ in range(epochs):y_pred = w * X + bdw = (2/n) * np.sum((y_pred - y) * X)  # 计算梯度db = (2/n) * np.sum(y_pred - y)w -= lr * dw  # 更新参数b -= lr * dbreturn w, bw, b = gradient_descent(X, y)
print(f"方程: y = {w:.2f}x + {b:.2f}")# 可视化
plt.scatter(X, y, color='red')
plt.plot(X, w*X + b, label='预测线')
plt.legend()
plt.show()

思考：梯度下降中学习率过大/过小会发生什么？

级别2：多元线性回归（特征工程）

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline# 生成非线性数据
X = np.linspace(-3, 3, 100).reshape(-1,1)
y = 0.5*X**2 + X + 2 + np.random.randn(100,1)# 使用多项式特征（二次项）
model = make_pipeline(PolynomialFeatures(degree=2),  # 添加二次特征LinearRegression()
)
model.fit(X, y)# 可视化拟合曲线
X_test = np.linspace(-3,3,100).reshape(-1,1)
plt.scatter(X, y, alpha=0.3)
plt.plot(X_test, model.predict(X_test), 'r', linewidth=2)
plt.title("二次多项式回归")
plt.show()

思考：如何避免多项式回归中的过拟合？

级别3：正则化回归（岭回归）

from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler# 生成高维数据（20个特征，仅5个有用）
np.random.seed(42)
X = np.random.randn(100, 20)
y = X[:, 0] + 2*X[:, 1] - 1.5*X[:, 2] + 0.5*X[:, 3] + np.random.randn(100)# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 对比普通线性回归和岭回归
lin_reg = LinearRegression()
lin_reg.fit(X_scaled, y)
print("普通回归系数范围:", np.max(np.abs(lin_reg.coef_)))ridge = Ridge(alpha=10)  # 正则化强度
ridge.fit(X_scaled, y)
print("岭回归系数范围:", np.max(np.abs(ridge.coef_)))

输出：

普通回归系数范围: 5.23
岭回归系数范围: 1.87

思考：为什么高维数据需要正则化？如何选择alpha值？

二、逻辑回归

级别1：二分类（基础应用）

from sklearn.datasets import make_classification# 生成可分数据
X, y = make_classification(n_features=2, n_redundant=0, n_clusters_per_class=1)# 训练模型
model = LogisticRegression()
model.fit(X, y)# 可视化决策边界
x_min, x_max = X[:,0].min()-1, X[:,0].max()+1
y_min, y_max = X[:,1].min()-1, X[:,1].max()+1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:,0], X[:,1], c=y, s=20)
plt.title("线性决策边界")
plt.show()

思考：为什么逻辑回归的决策边界是线性的？

级别2：多分类（鸢尾花数据集）

from sklearn.datasets import load_iris# 加载数据
iris = load_iris()
X, y = iris.data[:, :2], iris.target  # 只用前两个特征# 使用One-vs-Rest策略
model = LogisticRegression(multi_class='ovr', max_iter=1000)
model.fit(X, y)# 可视化多类决策边界
Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:,0], X[:,1], c=y, edgecolor='k')
plt.xlabel("花萼长度")
plt.ylabel("花萼宽度")
plt.title("多分类决策边界")
plt.show()

思考：OvR（One-vs-Rest）和Softmax多分类的区别是什么？

级别3：类别不平衡处理（信用卡欺诈检测）

from sklearn.datasets import fetch_openml
from sklearn.metrics import precision_recall_curve# 加载高度不平衡数据
data = fetch_openml('creditcardfraud')
X, y = data.data, data.target.astype(int)# 重采样（SMOTE方法）
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)# 带权重调整的逻辑回归
model = LogisticRegression(class_weight='balanced', max_iter=1000)
model.fit(X_res, y_res)# 绘制PR曲线
probs = model.predict_proba(X_res)[:,1]
precision, recall, _ = precision_recall_curve(y_res, probs)
plt.plot(recall, precision)
plt.xlabel("召回率")
plt.ylabel("精确率")
plt.title("类别不平衡下的PR曲线")
plt.show()

思考：为什么在处理欺诈检测时，精确率-召回率曲线比ROC曲线更有意义？

三、分类任务

级别1：KNN分类（原理理解）

from sklearn.neighbors import KNeighborsClassifier# 生成同心圆数据
X, y = make_circles(n_samples=200, noise=0.1, factor=0.5)# 不同K值对比
plt.figure(figsize=(12,4))
for i, k in enumerate([1, 10, 50]):knn = KNeighborsClassifier(n_neighbors=k)knn.fit(X, y)Z = knn.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)plt.subplot(1,3,i+1)plt.contourf(xx, yy, Z, alpha=0.4)plt.scatter(X[:,0], X[:,1], c=y, s=20)plt.title(f"K={k}")
plt.show()

思考：K值如何影响模型的偏差-方差权衡？

级别2：支持向量机（核技巧）

from sklearn.svm import SVC# 生成螺旋数据
def generate_spiral():theta = np.sqrt(np.random.rand(200))*2*np.pir = np.linspace(0, 1, 200)X1 = np.array([r*np.cos(theta), r*np.sin(theta)]).TX2 = np.array([-r*np.cos(theta), -r*np.sin(theta)]).Treturn np.vstack((X1,X2)), np.hstack((np.zeros(200), np.ones(200)))X, y = generate_spiral()# 不同核函数对比
kernels = ['linear', 'rbf', 'poly']
plt.figure(figsize=(15,4))
for i, kernel in enumerate(kernels):svm = SVC(kernel=kernel, gamma='auto')svm.fit(X, y)Z = svm.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)plt.subplot(1,3,i+1)plt.contourf(xx, yy, Z, alpha=0.4)plt.scatter(X[:,0], X[:,1], c=y, s=20)plt.title(f"{kernel} kernel")
plt.show()

思考：RBF核中的gamma参数控制什么？

级别3：集成方法（Stacking）

from sklearn.ensemble import StackingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB# 定义基模型和元模型
base_models = [('dt', DecisionTreeClassifier(max_depth=3)),('nb', GaussianNB()),('svm', SVC(probability=True))
]
meta_model = LogisticRegression()# 构建堆叠模型
stacking = StackingClassifier(estimators=base_models,final_estimator=meta_model,stack_method='predict_proba'
)# 在复杂数据集上测试
X, y = make_classification(n_samples=2000, n_features=20, n_informative=15)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)stacking.fit(X_train, y_train)
print(f"Stacking准确率: {stacking.score(X_test, y_test):.4f}")
print(f"对比单模型准确率:")
for name, model in base_models:model.fit(X_train, y_train)print(f"{name}: {model.score(X_test, y_test):.4f}")

输出示例：

Stacking准确率: 0.9233
对比单模型准确率:
dt: 0.8817
nb: 0.8567
svm: 0.8983

思考：为什么堆叠集成通常能提升性能？可能带来哪些缺点？

学习路径建议：

线性回归：从手工实现 → 理解多项式特征 → 掌握正则化
逻辑回归：从二分类基础 → 多分类扩展 → 处理实际数据问题
分类任务：从最近邻原理 → 理解核方法 → 掌握集成策略

我眼下日复一日的生活，将会成为我从未体察过的爱的记忆。 —费尔南多·佩索阿

机器学习模型--线性回归、逻辑回归、分类

一、线性回归级别1：简单一元线性回归（手工实现） import numpy as np import matplotlib.pyplot as plt# 生成数据 X np.array([1, 2, 3, 4, 5]) y np.array([2, 4, 5, 4, 5])# 手动实现梯度下降 def gradient_descent(X, y, lr0.01, epo…...

编程日记 2025/2/7 21:58:07

gitlab个别服务无法启动可能原因

目录一、gitlab的puma服务一直重启 1. 查看日志 2. 检查配置文件 3. 重新配置和重启 GitLab 4. 检查系统资源 5. 检查依赖和服务状态 6. 清理和优化 7. 升级 GitLab 8. 查看社区和文档二、 gitlab个别服务无法启动可能原因 1.服务器内存或磁盘已满 2.puma端口冲突…...

编程日记 2025/2/7 21:55:03

1、首先为table添加编辑按钮 {title: 操作,align: center,render: (_: any, record: any) > (<div style{{ display: flex, alignItems: center, justifyContent: space-evenly }}><Buttonsize"small"onClick{() > deitor(record)} style{{ margin…...

编程日记 2025/2/7 21:53:56

深度分析：网站快速收录与网站内容多样性的关系

本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/87.html 网站快速收录与网站内容多样性之间存在着密切的关系。以下是对这一关系的深度分析： 一、网站内容多样性对快速收录的影响提升搜索引擎抓取效率： 多样化的…...

编程日记 2025/2/7 21:49:51

feign 远程调用详解

在平常的开发工作中，我们经常需要跟其他系统交互，比如调用用户系统的用户信息接口、调用支付系统的支付接口等。那么，我们应该通过什么方式进行系统之间的交互呢？今天，简单来总结下 feign 的用法。 1：引入依…...

编程日记 2025/2/7 21:46:48

【Android】jni开发之导入opencv和libyuv来进行图像处理

做视频图像处理时需要对其进行水印的添加，放在应用层调用工具性能方面不太满意，于是当下采用opencvlibyuv方法进行处理。对于Android的jni开发不是很懂，我的需求是导入opencv方便在cpp中调用，但目前找到的教程都是把opencv作为模…...

编程日记 2025/2/7 21:40:40

【Elasticsearch】terms聚合误差问题

Elasticsearch中的聚合查询在某些情况下确实可能存在误差，尤其是在处理分布式数据和大量唯一值时。这种误差主要来源于以下几个方面： 1.分片数据的局部性 Elasticsearch的索引通常被分成多个分片，每个分片独立地计算聚合结果。由于数据在分…...

编程日记 2025/2/7 21:37:35

深入理解 `box-sizing: border-box；`：CSS 布局的利器

深入理解 box-sizing: border-box;：CSS 布局的利器默认行为示例代码使用 box-sizing: border-box;示例代码全局应用 box-sizing: border-box;示例代码实际应用场景1. 表单布局2. 网格布局总结在 CSS 中，box-sizing 属性决定了元素的总宽度和高度是…...

编程日记 2025/2/7 21:30:21

【原子工具】快速幂快速乘

题幂算.一切即1 阴阳迭变积微著，叠浪层峦瞬息功莫道浮生千万事，元知万象一归宗文章目录快速幂原始快速幂（O(logn)）二分递归形式非递归形式模下意义的快速幂（O(logn)）二分递归形式非递归形式快速乘龟速…...

编程日记 2025/2/7 21:26:14

Apache SeaTunnel 整体架构运行原理

概述 SeaTunnel 缘起数据集成在现代企业的数据治理和决策支持中扮演着至关重要的角色。随着数据源的多样化和数据量的迅速增长及业务需求的快速变化，企业需要具备强大的数据集成能力来高效地处理数据。SeaTunnel通过其高度可扩展和灵活的架构，帮助企业…...

编程日记 2025/2/7 21:24:10

Nginx如何实现 TCP和UDP代理？

文章目录前言 Nginx之TCP和UDP代理工作原理示意图配置文件和命令参数注释基本命令配置实例说明 TCP代理实例UDP代理实例总结前言 Nginx是一个高性能的HTTP和反向代理服务器，同时也支持TCP/UDP代理。在1.9.13版本后，Nginx已经支持端口转发&…...

编程日记 2025/2/7 21:23:07

蓝桥杯思维训练营(三）

文章目录题目详解680.验证回文串 II30.魔塔游戏徒步旅行中的补给问题观光景点组合得分问题题目详解 680.验证回文串 II 680.验证回文串 II 思路分析：这个题目的关键就是，按照正常来判断对应位置是否相等，如果不相等，那么就判…...

编程日记 2025/2/7 21:21:01

开箱即用的.NET MAUI组件库 V-Control 发布了!

之前写过挺多的MAUI Sample，其中有很多代码可以打包成组件，当组件完善到一定程度，我会把控件封装起来放到控件库中。今天，在这个仓库建立一年零八个月后，我觉得可以考虑将其作为开源库发布。有很多网友在观望.NET …...

编程日记 2025/2/7 21:14:54

动手学图神经网络（9）：利用图神经网络进行节点分类 WeightsBiases

利用图神经网络进行节点分类Weights&Biases 引言在本篇博客中，将深入探讨如何使用图神经网络（GNNs）来完成节点分类任务。以 Cora 数据集为例，该数据集是一个引用网络，节点代表文档，推断每个文档的类别。同时，使用 Weights & Biases（W&B）来跟踪实验过程和…...

编程日记 2025/2/7 21:13:53

【文件上传、秒传、分片上传、断点续传、重传】

文章目录获取文件对象文件上传（秒传、分片上传、断点续传、重传）优化获取文件对象 input标签的onchange方法接收到的参数就是用户上传的所有文件 <html lang"en"><head><title>文件上传</title><style>#inp…...

编程日记 2025/2/7 21:11:51

使用Pygame制作“打砖块”游戏

1. 前言打砖块（Breakout / Arkanoid） 是一款经典街机游戏，玩家控制一个可左右移动的挡板，接住并反弹球，击碎屏幕上方的砖块。随着砖块被击碎，不仅能获得分数，还可以体验到不断加速或复杂的反弹…...

编程日记 2025/2/7 21:10:48

【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）

文章目录 0 DeepSeek系列总览1 模型架构设计基本参数专家混合模型（MoE）[DeepSeek-V2提出, DeepSeek-V3改良]多头潜在注意力（MLA）[DeepSeek-V2提出]多token预测（MTP）[DeepSeek-V3提出] 2 DeepSeek-R1-Zero及…...

编程日记 2025/2/7 21:04:39

深入解析：如何利用 Python 爬虫获取商品 SKU 详细信息

在电商领域，SKU（Stock Keeping Unit，库存单位）详细信息是电商运营的核心数据之一。它不仅包含了商品的规格、价格、库存等关键信息，还直接影响到库存管理、价格策略和市场分析等多个方面。本文将详细介绍如何利用 Pyth…...

编程日记 2025/2/7 21:00:31

【3】高并发导出场景下，服务器性能瓶颈优化方案-文件压缩

使用EasyExcel导出并压缩文件是一种高效且常见的解决方案，尤其适用于需要处理大量数据的场景。 1. 导出多个Excel文件并压缩成ZIP文件的基本流程 （1）数据准备：从数据库或其他数据源获取需要导出的数据，并将其存储在Ja…...

编程日记 2025/2/7 20:56:25

FPGA|生成jic文件固化程序到flash

1、单击file-》convert programming files 2、flie type中选中jic文件，configuration decive里根据自己的硬件选择，单击flash loader选择右边的add device选项 3、选择自己的硬件，单击ok 4、选中sof选项，单机右侧的add file 5、选…...

编程日记 2025/2/7 20:54:19

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/8 4:37:06

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2026/1/28 3:43:20

如何为服务器生成TLS证书

TLS（Transport Layer Security）证书是确保网络通信安全的重要手段，它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书，可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

编程新知 2025/12/17 5:54:30

Mac软件卸载指南，简单易懂！

刚和Adobe分手，它却总在Library里给你写"回忆录"？卸载的Final Cut Pro像电子幽灵般阴魂不散？总是会有残留文件，别慌！这份Mac软件卸载指南，将用最硬核的方式教你"数字分手术"&#xff0…...

编程新知 2026/2/7 0:48:56

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。之前我们介绍了ArcGIS的横向图例制作：ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等（ArcGIS出图图例8大技巧），那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

编程新知 2026/2/4 17:18:03

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

文章目录现象：mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时，可能是因为以下几个原因：1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

编程新知 2026/2/4 16:17:25

AI书签管理工具开发全记录（十九）：嵌入资源处理

1.前言 📝 在上一篇文章中，我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源，方便后续将资源打包到一个可执行文件中。 2.embed介绍 🎯 Go 1.16 引入了革命性的 embed 包，彻底改变了静态资源管理的…...

编程新知 2026/1/30 16:24:23

C++：多态机制详解

目录一. 多态的概念 1.静态多态（编译时多态） 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1）.协变 2）.析构函数的重写 5.override 和 final关键字 1&#…...

编程新知 2026/1/25 13:32:52

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中，明确沟通敏捷转型目的尤为关键，团队成员只有清晰理解转型背后的原因和利益，才能降低对变化的…...

编程新知 2026/2/4 16:04:15