当前位置：首页 > news >正文

R语言数据分析15-xgboost模型预测

news 2026/2/11 1:08:31

XGBoost模型预测的主要大致思路：

1. 数据准备

首先，需要准备数据。这包括数据的读取、预处理和分割。数据应该包括特征和目标变量。

步骤：

读取数据：从CSV文件或其他数据源读取数据。
数据清理：处理缺失值、异常值等。
数据转换：将因变量转换为因子类型，特征变量转换为适合模型输入的格式。
数据分割：将数据分为训练集和测试集，一般按照8:2的比例分割。

2. 特征工程

特征工程是提升模型性能的关键步骤。包括：

特征选择：选择对预测目标最重要的特征。
特征转换：将分类变量转换为数值变量（如独热编码）。
特征缩放：标准化或归一化特征值。

3. 转换数据格式

XGBoost需要输入数据为矩阵格式。因此，需要将数据转换为稀疏矩阵格式。

4. 训练模型

训练模型是整个过程的核心步骤。需要设置模型的参数，并使用训练数据进行训练。

关键点：

设置参数：包括树的深度、学习率、采样率等。
交叉验证：使用交叉验证找到最佳的迭代次数。
模型训练：使用最佳参数训练模型。

5. 模型调参

为了获得最佳模型性能，需要进行参数调优。常用的方法有网格搜索、随机搜索和贝叶斯优化。

6. 模型评估

使用测试集评估模型性能。常用的评估指标有准确率、精确率、召回率、F1分数等。

步骤：

生成预测值：使用测试集生成预测值。
计算评估指标：根据预测值和实际值计算模型性能指标。

7. 模型预测

使用训练好的模型对新数据进行预测。将新数据转换为与训练数据相同的格式，然后进行预测。

8. 模型保存和加载

训练好的模型可以保存到文件中，以便后续加载和使用。

步骤：

保存模型：将模型保存到文件中。
加载模型：从文件中加载模型，以便进行预测。

本文数据和代码案例

library(xgboost)
library(Metrics)
library(ggplot2)
library(readxl)
library(dplyr)# 读取数据
data <- read_excel("分析数据.xlsx")# 用每列的后一个值填充缺失值
data1 <- data %>%mutate(across(everything(), ~ ifelse(is.na(.), lead(.), .)))# 查看填充后的数据
head(data1)
# 分离特征和响应变量
X <- data1 %>% select(-ILI) # 移除ILI列
y <- data1$ILI

# 划分训练集和测试集
set.seed(123) # 确保可重复性
train_indices <- sample(1:nrow(data1), size = 0.7 * nrow(data1))
train_data <- X[train_indices, ]
train_label <- y[train_indices]
test_data <- X[-train_indices, ]
test_label <- y[-train_indices]

# 设置XGBoost参数
params <- list(booster = "gbtree",objective = "reg:squarederror",eta = 0.1

# 训练模型
model <- xgb.train(params, dtrain, nrounds = 150)# 预测
predictions <- predict(model, dtest)

# 输出评价指标
cat("R2:", R2, "\n")
cat("Adjusted R2:", adj_R2, "\n")
cat("RMSE:", RMSE, "\n")
cat("MSE:", MSE, "\n")

最终可视化评价指标

# 可视化
# 创建散点图和回归线
scatter_plot <- data.frame(Actual = test_label, Predicted = predictions) %>%ggplot(aes(x = Actual, y = Predicted)) +geom_point() +geom_smooth(method = "lm", col = "blue") +xlab("Actual ILI1") +ylab("Predicted ILI1") +ggtitle("Actual vs Predicted")# 设置标题居中
scatter_plot +theme(plot.title = element_text(hjust = 0.5))

思路主要是使用R语言进行XGBoost模型预测的流程包括数据准备、模型训练、参数调优、模型评估和预测。首先，加载数据并进行预处理，然后使用 xgb.cv 和 xgb.train 函数进行模型训练和交叉验证。接着，通过调整参数优化模型性能，最后使用测试集评估模型，并使用训练好的模型进行预测新数据。

数据和完整代码

创作不易，希望大家多多点赞收藏和评论！

R语言数据分析15-xgboost模型预测

XGBoost模型预测的主要大致思路： 1. 数据准备首先，需要准备数据。这包括数据的读取、预处理和分割。数据应该包括特征和目标变量。步骤： 读取数据：从CSV文件或其他数据源读取数据。数据清理：处理缺失值、异常值等…...

编程日记 2024/6/8 22:56:47

重构大学数学基础_week04_从点积理解傅里叶变换

这周我们来看一下傅里叶变换。傅里叶变换是一种在数学和许多科学领域中广泛应用的分析方法，它允许我们将信号或函数从其原始域（通常是时间域或空间域）转换到频域表示。在频域中，信号被表示为其组成频率的幅度和相位，这…...

编程日记 2024/6/8 22:55:46

Shell以及Shell编程

Shell的任务 ①分析命令； ②处理通配符、变量替换、命令替换、重定向、管道和作业控制； ③搜索命令并执行。内部命令：内嵌在Shell中。外部命令：存在于磁盘上的独立可执行文件。 #！/bin/bash #! 称为一个幻数&…...

编程日记 2024/6/8 22:52:43

从记忆到想象：探索AI的智能未来

引言人工智能（AI）在信息处理、数据分析和任务自动化等方面展现了强大的能力。然而，在人类独有的记忆和想象力领域，AI仍然有很长的路要走。加利福尼亚大学戴维斯分校的心理学和神经科学教授查兰兰加纳特（Charan Ranga…...

编程日记 2024/6/8 22:51:43

“安全生产月”专题报道：AI智能监控技术如何助力安全生产

今年6月是第23个全国“安全生产月”，6月16日为全国“安全宣传咨询日”。今年全国“安全生产月”活动主题为“人人讲安全、个个会应急——畅通生命通道”。近日，国务院安委会办公室、应急管理部对开展好2024年全国“安全生产月”活动作出安排部署。随着科…...

编程日记 2024/6/8 22:50:41

【转】ES，广告索引

思考： 1）直接把别名切换到上一个版本索引 --解决问题 2）广告层级索引如何解决？ -routing、join 3）查询的过程：query and fetch, 优化掉fetch 4）segment合并策略 5）全量写入时副…...

编程日记 2024/6/8 22:49:40

Unity学习要点

前言学习Unity作为游戏开发的强大工具，对于初学者来说，掌握一些基础而实用的技巧是非常重要的。这不仅能帮助你更快地上手，还能在项目开发过程中提高效率。以下是一些Unity初学者的使用技巧，希望能为你的学习之旅提供帮助。 ##…...

编程日记 2024/6/8 22:48:39

$path ROOT_PATH; //tp项目根路径 require_once $path.vendor/phpqrcode/phpqrcode.php; //加载phpqrcode库 $url http://.$_SERVER[HTTP_HOST]./home/index/detail?id.$param[id]; $value $url; //二维码内容 $errorCorrectionLevel L; //容错级别 $mat…...

编程日记 2024/6/8 22:47:39

软考架构-计算机网络考点

会超纲，3-5分网络分类按分布范围划分局域网 LAN 10m-1000m左右房间、楼宇、校园传输速率高城域网 MAN 10km 城市广域网 WAN 100km以上国家或全球（英特网） 按拓扑结构划分总线型：利用率低、干…...

编程日记 2024/6/8 22:46:38

渗透测试之内核安全系列课程：Rootkit技术初探（三）

今天，我们来讲一下内核安全！ 本文章仅提供学习，切勿将其用于不法手段！ 目前，在渗透测试领域，主要分为了两个发展方向，分别为Web攻防领域和PWN（二进制安全）攻防领域。在…...

编程日记 2024/6/8 22:45:37

大模型日报2024-06-08

大模型日报 2024-06-08 大模型资讯 AI研究：通过消除矩阵乘法实现高效的大语言模型摘要: 该AI研究探讨了通过消除矩阵乘法来实现高效且可扩展的大语言模型（LLMs）。此方法旨在提升模型性能，提供更快速和高效的计算方案。 AWS大力投…...

编程日记 2024/6/8 22:44:36

leetcode 1631.最小体力消耗路径

思路：BFS二分这道题和洛谷上的那个“汽车拉力赛”那道题很相似，但是这道题相较于洛谷那个来说会简单一些。这里作者一开始写的时候思路堵在了怎么在BFS中用二分，先入为主的以为需要先写出来搜索函数然后再去处理二分的事，但是…...

编程日记 2024/6/8 22:43:36

【ARM64 常见汇编指令学习 19.2 -- ARM64 地址加载指令 ADR 详细介绍】

文章目录地址加载指令 ADRADR 指令使用场景例子注意事项地址加载指令 ADR ARMv8 架构引入了一系列的改进和扩展，包括对汇编指令集的更新。在这之中，ADR 指令是一个重要的组成部分，它用于计算并加载一个地址到寄存器。 ADR 指令 ADR 指令…...

编程日记 2024/6/8 22:42:34

vscode输出控制台中文显示乱码最有效解决办法

当VSCode的输出控制台中文显示乱码时，一个有效的解决办法是通过设置环境变量来确保编码的正确性。以下是解决方式： 首先，设置环境变量以修正乱码问题： 如果上述方法没有解决乱码问题，请继续以下步骤： 右键…...

编程日记 2024/6/8 22:41:33

springboot + Vue前后端项目（第十五记）

项目实战第十五记写在前面1.后端接口实现1.1 用户表添加角色字段1.2 角色表增加唯一标识字段1.3 UserDTO1.4 UserServiceImpl1.5 MenuServiceImpl 2. 前端实现2.1 User.vue2.2 动态菜单设计2.2.1 Login.vue2.2.2 Aside.vue 2.3 动态路由设计2.3.1 菜单表新增字段page_path2.3.…...

编程日记 2024/6/8 22:40:32

如何在Windows 11中恢复丢失的快速访问菜单？这里提供解决办法

序言在电脑的“快速访问”菜单中找不到固定的项目？或者，整个菜单对你来说已经消失了吗？无论哪种方式，你都可以强制你的电脑恢复菜单并显示其中的所有项目。以下是如何在你的Windows 11电脑上做到这一点。将文件资源管理器设置为打开到主页当你在文件资源管理器的左侧…...

编程日记 2024/6/8 22:38:30

变声器软件免费版有哪些？国内外12大热门变声器大盘点！（新）

变声软件是一种人工智能AI音频处理工具，允许用户实时修改自己的声音或改变预先录制的音频。这些软件解决方案可提供不同的效果，如改变声音的音调或速度，或将我们的声音转换成其他人或其他东西的声音，如名人、卡通人物、机器人或不…...

编程日记 2024/6/8 22:37:28

计算机网络 —— 数据链路层（无线局域网）

计算机网络 —— 数据链路层（无线局域网） 什么是无线局域网IEEE 802.11主要标准及其特点： 802.11的MAC帧样式我们来看看无线局域网： 什么是无线局域网无线局域网（Wireless Local Area Network，简称WLAN…...

编程日记 2024/6/8 22:35:26

SpringBoot图书管理系统【附：资料➕文档】

前言：我是源码分享交流Coding，专注JavaVue领域，专业提供程序设计开发、源码分享、技术指导讲解、各类项目免费分享，定制和毕业设计服务！ 免费获取方式--->>文章末尾处！ 项目介绍048： 图…...

编程日记 2024/6/8 22:33:25

shell简介

一、Shell 概念定义 Shell 是用 C 语言编写的程序，是用户使用 Linux 的桥梁，既是命令语言又是程序设计语言。 shell 脚本为 Shell 编写的脚本程序，常说的 shell 通常指 shell 脚本。包含一系列命令的文本文件，这些命令按照特定…...

编程日记 2024/6/8 22:32:21

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令范围操作示例指定行范围处理复合命令示例实用技…...

编程新知 2025/11/16 8:24:16

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

目录 Python｜GIF 解析与构建（5）：手搓截屏和帧率控制一、引言二、技术实现：手搓截屏模块 2.1 核心原理 2.2 代码解析：ScreenshotData类 2.2.1 截图函数：capture_screen 三、技术实现&…...

编程新知 2025/11/14 3:06:30

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下，越来越多的求职者将目光投向了日本及中日双语岗位。但是，一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧？面对生疏的日语交流环境，即便提前恶补了…...

编程新知 2026/2/8 4:37:01

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/12/17 2:10:10

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

编程新知 2026/1/24 13:05:24

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

编程新知 2025/12/14 11:45:25

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

根据万维钢·精英日课6的内容，使用AI（2025）可以参考以下方法：

根据万维钢精英日课6的内容，使用AI（2025）可以参考以下方法： 四个洞见模型已经比人聪明：以ChatGPT o3为代表的AI非常强大，能运用高级理论解释道理、引用最新学术论文，生成对顶尖科学家都有用的…...

编程新知 2026/1/10 1:08:51

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南在数字化营销时代，邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天，我们将深入解析邮件打开率、网站可用性、页面参与时…...

编程新知 2025/12/13 4:04:33

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45