当前位置：首页 > news >正文

Machine Learning 初探

news 2026/2/9 1:24:56

前置知识

pandas

读取文件：read_csv
查看信息
- describe：查看整体信息，包括每列的平均值、最大最小值、标准差等
- head：输出头部几行数据
- columns：输出所有列名
- loc：查询数据，或是根据索引取对应的数据
- dropna：去掉所有为空NA的数据

Machine Learning

大体上来说，机器学习就是给定一部分数据，让机器去“学习”这部分有什么特征，每个特征上有什么规律，以此形成一个模型model，然后用这个model去预测新的数据的结果

scikit-learn

简单高效的python包，可用于可预测的数据分析，官网在这里，可以自行查阅相关模型的原理或是API
下面以决策树模型的使用过程来大致展示一下机器学习的整体过程

决策树：DecisionTree

非常简单易懂的监督模型，可理解为给定一系列相关特征（比如n个），每个特征的结果只有两个（不确定是不是只能有两个），整个决策树就像是二叉树，预测时根据每个特征的是或否的回答选择路径，一次决策就像是二叉树从根节点到某个叶子节点的一条路径
可用于classification(DecisionTreeClassifier)或是regression(DecisionTreeRegressor)

训练模型的整体流程：以回归模型为例

准备数据：用pandas读取数据，并挑选出所需要的特征列和想预测的目标列

数据分离train_test_split：注意不要把所有数据都拿来用于训练，要从中选出一部分数据用于验证训练出来的模型是否可信

import pandas as pd
from sklearn.model_selection import train_test_split
src_data = pd.read_csv('...')
features = ['column_1', ...]
X = src_data[features]		# 特征列
y = src_data.target_column	# 目标列
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)

初始化模型：直接导入后创建即可
- 可指定随机数种子random_state，相同的值能保证每次运行脚本时得到相同的结果
```
from sklearn.tree import DecisionTreeRegressor
...
dt_model = DecisionTreeRegressor(random_state=N)
```
数据拟合fit：用训练数据去训练模型

预测结果predict：用检验数据进行预测

predicted_data = model.predict(val_X)		# val_X: validation data

评估结果：检验预测的结果与实际结果之间的差距，可以有不同的方法，在此仅介绍一种MAE

评估结果：mean_absolute_error（MAE）

计算方式为：依次计算预测结果与实际结果的差值的绝对值，最后求和后除以结果数量
即与实际结果间的平均差值

On average, our predictions are off by about X.

代码也很简单，导入后调用即可

from sklearn.metrics import mean_absolute_errormean_absolute_error(y, predicted_data)	// y: validation data's actual result

两个问题

过拟合 overfitting：与训练数据贴合得过于完美，可能会学到一些实际数据中并不存在的特性，导致预测结果与实际数据相差较大（就像是下图竖线的右边部分，训练数据上的评估结果很好但实际表现不好）
欠拟合 underfitting：与训练数据贴合得不够，可能是特征学习得不足，导致不能很好地判定实际数据的特征，所以预测结果与实际数据相差也很大（就像下图竖线的左边部分，在两个数据集上的表现都不好）
寻找最佳点：可通过梯度测试等方式，不断调试参数，找到能让在实际数据上的表现最好的参数

MAE中拟合预见的两个情况

决策树的改进

控制树高：创建模型的时候可以通过max_leaf_node指定叶子个数限制，或是max_depth指定最大深度。那么经过测试不同叶子限制或是树高的情况下MAE的值，选取使其到达最低点的参数进行创建模型，就能达到最佳效果
使用更复杂的模型（比如随机森林RandomForestRegressor）
```
from sklearn.ensemble import RandomForestRegressor
```

Machine Learning 初探

前置知识 pandas 读取文件：read_csv查看信息 describe：查看整体信息，包括每列的平均值、最大最小值、标准差等head：输出头部几行数据columns：输出所有列名loc：查询数据，或是根据索引取对应的数…...

编程日记 2025/3/1 22:14:23

GESP2024年12月认证C++三级( 第三部分编程题（1）数字替换）

参考程序： #include <iostream> #include <vector> #include <algorithm> using namespace std; int a[100010]; // 定义一个数组a，用于存储序列A，数组大小为100010 int main() {int n, k; // 定义变量n和k，…...

编程日记 2025/3/1 22:13:21

背景简要说明： UAST – Unified Abstract Syntax Tree UAST (Unified Abstract Syntax Tree) is an abstraction layer on the PSI of different programming languages targeting the JVM (Java Virtual Machine). It provides a unified API for working with co…...

编程日记 2025/3/1 22:12:19

单片机总结【GPIO/TIM/IIC/SPI/UART】

一、GPIO 1、概念通用输入输出口；开发者可以根据自己的需求将其配置为输入或输出模式，以实现与外部设备进行数据交互、控制外部设备等功能。简单来说，GPIO 就像是计算机或微控制器与外部世界沟通的 “桥梁”。 2、工作模式工作模式性质特…...

编程日记 2025/3/1 22:07:12

信号和槽

connect(信号发送者，发送的信号，信号接收者，信号的处理); 信号函数和槽函数的参数必须是一样的，但信号的参数可以多余槽函数的参数（前面的参数类型必须一致） 是控件和控件间的信号传递，这两个…...

编程日记 2025/3/1 22:05:08

Window下Redis的安装和部署详细图文教程（Redis的安装和可视化工具的使用）

文章目录 Redis下载地址：一、zip压缩包方式下载安装 1、下载Redis压缩包2、解压到文件夹3、启动Redis服务4、打开Redis客户端进行连接5、使用一些基础操作来测试二、msi安装包方式下载安装 1、下载Redis安装包2、进行安装3、进行配置4、启动服务5、测试能否正常工…...

编程日记 2025/3/1 22:00:01

1.2.3 使用Spring Initializr方式构建Spring Boot项目

本实战概述介绍了如何使用Spring Initializr创建Spring Boot项目，并进行基本配置。首先，通过Spring Initializr生成项目骨架，然后创建控制器HelloController，定义处理GET请求的方法hello，返回HTML字符串。接着&#xf…...

编程日记 2025/3/1 21:58:59

数据可视化02-PCA降维

一、PCA PCA做什么？找坐标系。目标？二维降到一维，信息保留最多。怎么样最好？数据分布最分散的方向（方差最大），作为主成分（坐标轴）。二、怎么找主成分？ …...

编程日记 2025/3/1 21:57:55

大连指令数据集的创建--数据收集与预处理_02

1.去哪儿爬虫编程语言：Python爬虫框架：Selenium（用于浏览器自动化）解析库：BeautifulSoup（用于解析HTML） 2.爬虫策略目标网站：去哪儿（https://travel.qunar.com/trav…...

编程日记 2025/3/1 21:56:53

xr-frame 3D Marker识别，扬州古牌坊 3D识别技术稳定调研

目录识别物体规范 3D Marker 识别目标文件 map 生成生成任务状态解析服务耗时： 对传入的视频有如下要求： 对传入的视频建议： 识别物体规范为提高Marker质量，保证算法识别效果，可参考Marker规范文档 Marker规…...

编程日记 2025/3/1 21:55:52

【网络安全 | 漏洞挖掘】利用文件上传功能的 IDOR 和 XSS 劫持会话

未经许可，不得转载。本文涉及漏洞均已修复。文章目录前言正文前言想象这样一个场景：一个专门处理敏感文档的平台，如保险理赔或身份验证系统，却因一个设计疏漏而成为攻击者的“金矿”。在对某个保险门户的文件上传功能进行测试时，我意外发现了一个可导致大规模账户接管…...

编程日记 2025/3/1 21:54:51

达梦数据库系列之安装及Mysql数据迁移

达梦数据库系列之安装及Mysql数据迁移 1. 达梦数据库1.1 简介1.2 Docker安装达梦1.2.1 默认密码查询1.2.2 docker启动指定密码 1.3 达梦数据库连接工具1.3.1 快捷键 2 Mysql数据库迁移至达梦2.1 使用SQLark进行数据迁移 1. 达梦数据库 1.1 简介 DM8是达梦公司在总结DM系列产品…...

编程日记 2025/3/1 21:53:49

FS800DTU联动OneNET平台数据可视化View

目录 1 前言 2 环境搭建 2.1 硬件准备 2.2 软件环境 2.3 硬件连接 3 注册OneNET云平台并建立物模型 3.1 参数获取 3.2 连接OneNET 3.3上报数据 4 数据可视化View 4.1 用户信息获取 4.2 启用数据可视化View 4.3 创建项目 4.4 编辑项目 4.5 新增数据源 4.6 数据过滤器配置 4.6 项…...

编程日记 2025/3/1 21:52:48

ffmpeg avdevice_register_all 注册设备的作用

在 FFmpeg 中，avdevice_register_all() 是一个用于注册所有输入和输出设备的函数。它是 FFmpeg 的 libavdevice 模块的一部分，专门用于处理音频和视频的输入/输出设备（如摄像头、麦克风、屏幕捕获等）。以下是对 avdevice_regist…...

编程日记 2025/3/1 21:50:45

使用JS遍历JSON数组

在JavaScript中，遍历JSON对象或数组是一个常见的操作，尤其是在处理复杂数据结构时。这里有几种不同的方法可以根据你的需求进行遍历。 1. 遍历JSON对象如果你有一个JSON对象（实际上在JavaScript中，所有的对象都可以视为JSON对象…...

编程日记 2025/3/1 21:46:41

Go基于协程池的延迟任务调度器

原理通过用一个goroutine以及堆来存储要待调度的延迟任务，当达到调度时间后，将其添加到协程池中去执行。主要是使用了chan、Mutex、atomic及ants协程池来实现。用途主要是用于高并发及大量定时任务要处理的情况，如果使用Go协程来实现每…...

编程日记 2025/3/1 21:43:34

k8S通过代理将集群外的中间件引入集群内访问 —— 筑梦之路

背景说明有部分中间件是跑在Kubernetes集群之外，我们希望通过service的方式来访问集群外的中间件，比如访问我们k8s集群外的elasticsearch集群。 ES节点本身又处在一个负载均衡IP：192.168.100.100 之后，但是代理的端口号是9202&am…...

编程日记 2025/3/1 21:42:29

Linux 第三次脚本作业

源码编译安装httpd 2.4，提供系统服务管理脚本并测试（建议两种方法实现） 一、第一种方法 1、把 httpd-2.4.63.tar.gz 这个安装包上传到你的试验机上 2、安装编译工具 (俺之前已经装好了） 3、解压httpd包 4、解压后的httpd包的文…...

编程日记 2025/3/1 21:31:16

使用通义万相Wan2.1进行视频生成

使用通义万相Wan2.1进行视频生成源代码准备运行环境准备创建Python虚拟环境并激活安装依赖包模型下载生成视频官网的视频生成例子简单描述场景视频生成示例详细描述场景视频生成示例最近通义万相开源了其视频生成模型。模型有两个版本，一个是1.3B的，一…...

编程日记 2025/3/1 21:30:14

AI技术为旅行社打开新流量入口

2月28日消息，在“2025旅业发展高峰论坛”上，马蜂窝交易中心总经理绳志成在主题演讲中系统性阐述了AI技术对自由行市场的颠覆性影响。绳志成介绍，传统“大而全”的跟团游产品吸引力持续走低，用户更愿意为“小众秘境”、“在地文化…...

编程日记 2025/3/1 21:29:13

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/9/23 15:13:40

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2026/2/8 4:37:22

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

Spring Boot 实现流式响应（兼容 2.7.x）

在实际开发中，我们可能会遇到一些流式数据处理的场景，比如接收来自上游接口的 Server-Sent Events（SSE） 或流式 JSON 内容，并将其原样中转给前端页面或客户端。这种情况下，传统的 RestTemplate 缓存机制会…...

编程新知 2025/8/11 8:18:44

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2026/1/26 21:57:45

自然语言处理——循环神经网络

自然语言处理——循环神经网络循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式参数学习和长程依赖问题基于门控的循环神经网络门控循环单元（GRU）长短期记忆神经网络（LSTM&#xff09…...

编程新知 2026/2/4 11:21:40

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析（Parser） 2.4、执行sql 1. 预处理（Preprocessor） 2. 查询优化器（Optimizer） 3. 执行器…...

编程新知 2026/2/7 5:16:05

解读《网络安全法》最新修订，把握网络安全新趋势

《网络安全法》自2017年施行以来，在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂，网络攻击、数据泄露等事件频发，现行法律已难以完全适应新的风险挑战。 2025年3月28日，国家网信办会同相关部门起草了《网络安全…...

编程新知 2026/1/31 4:40:38

「全栈技术解析」推客小程序系统开发：从架构设计到裂变增长的完整解决方案

在移动互联网营销竞争白热化的当下，推客小程序系统凭借其裂变传播、精准营销等特性，成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径，助力开发者打造具有市场竞争力的营销工具。一、系统核心功能架构&…...

编程新知 2025/8/21 16:28:18

Machine Learning 初探

前置知识

pandas

Machine Learning

scikit-learn

决策树：DecisionTree

评估结果：mean_absolute_error（MAE）

两个问题

决策树的改进

相关文章：

Machine Learning 初探

GESP2024年12月认证C++三级( 第三部分编程题（1）数字替换）

IDEA-插件开发踩坑记录-第六坑-UAST依赖问题

单片机总结【GPIO/TIM/IIC/SPI/UART】

信号和槽

Window下Redis的安装和部署详细图文教程（Redis的安装和可视化工具的使用）

1.2.3 使用Spring Initializr方式构建Spring Boot项目

数据可视化02-PCA降维

大连指令数据集的创建--数据收集与预处理_02

xr-frame 3D Marker识别，扬州古牌坊 3D识别技术稳定调研

【网络安全 | 漏洞挖掘】利用文件上传功能的 IDOR 和 XSS 劫持会话

达梦数据库系列之安装及Mysql数据迁移

FS800DTU联动OneNET平台数据可视化View

ffmpeg avdevice_register_all 注册设备的作用

使用JS遍历JSON数组

Go基于协程池的延迟任务调度器

k8S通过代理将集群外的中间件引入集群内访问 —— 筑梦之路

Linux 第三次脚本作业

使用通义万相Wan2.1进行视频生成

AI技术为旅行社打开新流量入口

浅谈 React Hooks

铭豹扩展坞 USB转网口突然无法识别解决方法

应用升级/灾备测试时使用guarantee 闪回点迅速回退

Spring Boot 实现流式响应（兼容 2.7.x）

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

自然语言处理——循环神经网络

在Ubuntu24上采用Wine打开SourceInsight

Mysql中select查询语句的执行过程

解读《网络安全法》最新修订，把握网络安全新趋势

「全栈技术解析」推客小程序系统开发：从架构设计到裂变增长的完整解决方案