当前位置: 首页 > news >正文

R语言复现:中国Charls数据库一篇现况调查论文的缺失数据填补方法

编者

在临床研究中,数据缺失是不可避免的,甚至没有缺失,数据的真实性都会受到质疑。

那我们该如何应对缺失的数据?放着不管?还是重新开始?不妨试着对缺失值进行填补,简单又高效。毕竟对于统计师来说,对缺失值进行填补也是日常工作之一。

今天为大家带来一篇CHARLS数据库有关缺失值填补的文章复现,包括全部的代码与处理好的数据一并提供给诸位!

复现文章介绍

今天要介绍的文章是发表在《中国慢性病预防与控制》(IF=2.18),题为:“中国城市老年人身体活动与衰弱的相关性研究” 的研究论文。研究结果显示,中高身体活动有助于降低城市老年人的衰弱风险,应对城市老年人开展衰弱筛查,并重视身体活动在降低衰弱风险中的作用,积极引导城市老年人进行身体活动。

743f8ef4710376d24664aace09c16e40.png

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT,数据等资料

1. 研究设计 

P(Population)参与者:CHARLS2018年城市样本中 60~95岁的老年人。

E(exposure)暴露因素:身体活动水平(PA)。(1周身体活动量(MET-min/周)=对应身体活动的代谢当量(MET)×每天活动时间(min)×1 周活动天数(d);低水平身体活动 MET 赋值为 3.3,中水平身体活动赋值为4.0,高水平身体活动赋值为 8.0;将<600 MET-min/周划分为低水平身体活动,≥600 MET-min/周划分为中高水平身体活动。)

O(outcome)结局:是否衰弱(FI)。(FI 的计算方法为存在健康缺陷的指标数目除以纳入总数,范围为 0~1;本研究将衰弱定义为 FI≥0.25。)              

2. 统计学方法

利用多重填补法对缺失数据进行填补,疾病维度的使用前一期调查数据,使用多因素非条件logistic回归分层logistic回归对结果进行分析。

3290e775367c4117e90cf2df2de0b6ee.png

3. 文章数据介绍

研究涉及charls数据库的变量如下表所示,本次复现所用到的变量也与文章保持一致。

3a5c5c92716d5a34d41dfa20031b3a50.png

811a79f867f1f245405555c2caeec9c7.png

46068f9c9559dca156bc3b257615bb15.png

4. 研究结果

4.1 基线特征

2623 名城市老年人年龄为 60~95 岁,平均年龄为(69.3±7.3)岁,男性1259 人(48.00%),女性 1 364 人(52.00%)。城市老年人的衰弱率为 26.92%。不同年龄、性别、民族、婚姻、教育、地域、居住状态、医疗保险拥有情况以及身体活动水平的城市老年人衰弱率差异均有统计学意义 (P<0.05),见表 1。

b04a4cce87670598f4ce264c712535ea.png

67725fbe345b3215f03df6afcf5a3680.png

4.2 城市老年人身体活动与衰弱的相关性分析

衰弱情况(0=无,1=衰弱)为因变量,身体活动水平作为自变量进行 logistic 回归分析,控制混杂因素后,相比低身体活动,中高身体活动的城市老年人衰弱风险更低(OR=0.243,95%CI:0.181~0.312,P<0.05)。其他控制变量中,除居住状态和医疗保险外,其余因素均与老年人衰弱的发生相关,均有统计学意义(P<0.05)。见表 2。

c5e5f29fe2cb1622a6e47307e752258f.png

4387de7c44e432f981d5503bafa69ec7.png

4.3 中高身体活动对不同特征城市老年人衰弱的影响

以衰弱(0=无,1=衰弱)为因变量,身体活动水平(0=低水平,1=中高水平)为自变量,按性别、受教育水平、婚姻状况和地域进行分层 logistic 回归分析。结果显示,与低身体活动相比,进行中高身体活动对于女性、受教育水平偏高、未婚以及居住在中西部地区的老年人衰弱风险降低的作用更大(P<0.05),见表 3。

434a5942cf8da813e72759fe6c2ac271.png

R语言复现

本次复现包括的统计学方法有:

  • 基线差异性分析

  • 缺失数据填补

  • 多因素logistic回归

  • 分层logistic回归

1.数据导入

首先,导入我们从charls数据库中提取处理好的数据,本次复现数据包括3816名研究对象(原文章n=2623),样本量略有出入,这里大家请多关注统计方法的运用。

51ba9c5a06fc5d4400e3dfad25f06d40.png

2.基线差异性分析

本次复现基线表格用到了tableone包,这里“myVars”汇总了基线表中的全部变量,其中有部分变量为分类变量,则需要通过“catVars”进行指定,否则分类数据也将以定量数据进行展示。

f52dc3c45d6cf9139dc8d2e4de065186.png

这里tab2中未指定分组变量,则仅展示各变量的数据分布,此外,“showAllLevels = TRUE”表示展示分类变量所有分类因子的结果,“nonnormal =”指定的定量数据将以偏态分布进行分析,如果所有定量数据都是偏态分布,可以简洁的用“nonnormal = TRUE”来表示。

97b5cb4fd3e8192d8dee6ac9c0933464.png

最后,将基线表结果输出保存在工作空间里,这里我们设置保存为csv格式!

3. 缺失值情况

首先对我们所需要用到的研究因素进行批量因子化,并查看缺失值的特征,进行缺失值可视化。

0a15505827593f32e275aac49c36fdad.png

以下是可视化的结果。

6840fb82b56a042990515548e4f64070.png

4.缺失值填补,多因素logistic回归

利用mice包进行缺失值的填补,m:多重插补法的数量,默认为 5。method:指定数据中每一列的输入方法。1)数值型数据适用 pmm;2)二分类数据适用 logreg;3)无序多类别数据适用 ployreg;4)有序多分类变量适用 polr。默认方法为 pmm 。maxit:迭代次数,一般为 50。

使用with函数对所有数据集进行分析,在填补的数据集中计算身体活动和衰弱指标,按照分组标准进行赋值,并进行多因素logistic回归,最后使用pool函数对结果进行汇总输出。

eb06b231545816e33037130a216b476b.png

结果展示:

52672e1419ec7e444233b1444410fdb8.png

5.分层logistic回归

将各组挑出组成新的数据集,在各个数据集中进行分层logistic回归

b569613474148100628192fda6a7368b.png

结果展示:

7ba93654bc06dc589fb1715be32610f0.png

1a0ccccf27a06a91969334caa8e88501.png

后记

缺失值填补,简单来说就是,人为的地给我们没有观测到的变量赋予一个值,并将这个值用于分析。这样做,虽然听起来可能比较主观,不太科学,但实际上,这也是我们不得不采取的措施。

试验中存在缺失值,本来是一件遗憾的事情,但是我们可以适当“调整”,对缺失进行填补,这难道不比重新开始更方便吗?

相信看完了全文的读者对于缺失数据填补已经有了大致的了解,如果想要了解更多,不妨关注本公众号,我们会带来更多缺失数据文章的复现!敬请期待!!

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT,数据等资料


本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍

二、数据分析服务

浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情:

课题、论文、毕业数据分析 

 临床试验设计与分析 、公共数据库挖掘与统计

相关文章:

R语言复现:中国Charls数据库一篇现况调查论文的缺失数据填补方法

编者 在临床研究中&#xff0c;数据缺失是不可避免的&#xff0c;甚至没有缺失&#xff0c;数据的真实性都会受到质疑。 那我们该如何应对缺失的数据&#xff1f;放着不管&#xff1f;还是重新开始?不妨试着对缺失值进行填补&#xff0c;简单又高效。毕竟对于统计师来说&#…...

解决Git:Author identity unknown Please tell me who you are.

报错信息&#xff1a; 意思&#xff1a; 作者身份未知 ***请告诉我你是谁。 解决办法&#xff1a; git config --global user.name "你的名字"git config --global user.email "你的邮箱"...

Flink StreamTask启动和执行源码分析

文章目录 前言StreamTask 部署启动Task 线程启动StreamTask 初始化StreamTask 执行 前言 Flink的StreamTask的启动和执行是一个复杂的过程&#xff0c;涉及多个关键步骤。以下是StreamTask启动和执行的主要流程&#xff1a; 初始化&#xff1a;StreamTask的初始化阶段涉及多个…...

【MySQL 系列】MySQL 语句篇_DCL 语句

DCL&#xff08; Data Control Language&#xff0c;数据控制语言&#xff09;用于对数据访问权限进行控制&#xff0c;定义数据库、表、字段、用户的访问权限和安全级别。主要关键字包括 GRANT、 REVOKE 等。 文章目录 1、MySQL 中的 DCL 语句1.1、数据控制语言--DCL1.2、MySQ…...

什么是序列化?为什么需要序列化?

1、典型回答 序列化(Serialization)序列化是将对象转换为可存储或传输的形式的过程(例如: 将对象转换为字节流) 反序列化(Deserialization) 是将序列化后的数据(例如: 二进制文件)转换回原始对象的过程。通过反序列化&#xff0c;可以从存储介质 (如磁盘、数据库) 或通过网络…...

Linux本地搭建FastDFS系统

文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Nginx1.9 配置Nginx 2. 局域网测试访问FastDFS3. 安装cpolar内网穿透4. 配置公网访问地址5. 固定公网地址5.…...

docker和docker-compose安装

一、docker安装 1、移除旧版本 依次执行如下命令移除旧版本docker&#xff0c;如未安装过无需执行 yum -y remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-selinux docker-engine-selinux…...

深入理解Spring的ApplicationContext:案例详解与应用

深入理解Spring的ApplicationContext&#xff1a;案例详解与应用 在Spring框架的丰富生态中&#xff0c;ApplicationContext扮演着至关重要的角色。作为BeanFactory的扩展&#xff0c;ApplicationContext不仅继承了其所有功能&#xff0c;还引入了更多高级特性&#xff0c;使得…...

6.Java并发编程—深入剖析Java Executors:探索创建线程的5种神奇方式

Executors快速创建线程池的方法 Java通过Executors 工厂提供了5种创建线程池的方法&#xff0c;具体方法如下 方法名描述newSingleThreadExecutor()创建一个单线程的线程池&#xff0c;该线程池中只有一个工作线程。所有任务按照提交的顺序依次执行&#xff0c;保证任务的顺序性…...

英语阅读挑战

英语阅读真是令人头痛的东西。可怜的子航想利用寒假时间突破英语难题。当他拿到一篇英语阅读时&#xff0c;他很好奇作者最喜欢用那些字母。 输入 一句30词以内的英语句子 输出 统计每个字母出现的次数 样例输入 复制 However,the British dont have a history of exporting th…...

备战蓝桥之思维

平台重叠真的坑 给你一句样例&#xff0c;如果你觉得自己的代码没问题那就试试吧 2 1 1 3 1 0 4 正确答案 0 0 0 0 P1105 平台 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) import java.awt.Checkbox; import java.awt.PageAttributes.OriginType; import java.io.B…...

09 string的实现

注意 实现仿cplus官网的的string类&#xff0c;对部分主要功能实现 实现 头文件 #pragma once #include <iostream> #include <assert.h> #include <string>namespace mystring {class string{friend std::ostream& operator<<(std::ostream&a…...

Git 进行版本控制时,配置 user.name 和 user.email

在使用 Git 进行版本控制时&#xff0c;配置 user.name 和 user.email 是一个非常重要的初始步骤&#xff0c;但不是绝对必须的。这两个配置项定义了当你进行提交&#xff08;commit&#xff09;时用于标识提交者的信息。 为什么建议配置 user.name 和 user.email 标识提交者…...

传统开发读写优化与HBase

目录: 一、传统开发数据读写性能优化 1. Mysql 分表、主从复制与读写分离 2. Redis(缓存型数据库)主从复制与读写分离 二、HBase 一、传统开发数据读写性能优化 1、Mysql 分表、主从复制与读写分离 mysql分库分表方案 一种分表方案&#xff1a;设置表A 表B 表A 自增列从1开始…...

【OpenGL实现 03】纹理贴图原理和实现

目录 一、说明二、纹理贴图原理2.1 纹理融合原理2.2 UV坐标原理 三、生成纹理对象3.1 需要在VAO上绑定纹理坐标3.2 纹理传递3.3 纹理buffer生成 四、代码实现&#xff1a;五、着色器4.1 片段4.2 顶点 五、后记 一、说明 本篇叙述在画出图元的时候&#xff0c;如何贴图纹理图片…...

FDU 2021 | 二叉树关键节点的个数

文章目录 1. 题目描述2. 我的尝试 1. 题目描述 给定一颗二叉树&#xff0c;树的每个节点的值为一个正整数。如果从根节点到节点 N 的路径上不存在比节点 N 的值大的节点&#xff0c;那么节点 N 被认为是树上的关键节点。求树上所有的关键节点的个数。请写出程序&#xff0c;并…...

精读《React Conf 2019 - Day2》

1 引言 这是继 精读《React Conf 2019 - Day1》 之后的第二篇&#xff0c;补充了 React Conf 2019 第二天的内容。 2 概述 & 精读 第二天的内容更为精彩&#xff0c;笔者会重点介绍比较干货的部分。 Fast refresh Fast refresh 是更好的 react-hot-loader 替代方案&am…...

向ChatGPT高效提问模板

PS: ChatGPT无限次数&#xff0c;无需魔法&#xff0c;登录即可使用,网页打开下面 tj4.mnsfdx.net [点击跳转链接](http://tj4.mnsfdx.net/) 我想请你XXXX&#xff0c;请问我应该如何向你提问才能得到最满意的答案&#xff0c;请提供全面、详细的建议&#xff0c;针对每一个建…...

android metaRTC编译

参考文章&#xff1a; metaRTC3.0稳定版本编译指南_metartc 编译-CSDN博客 源码下载&#xff1a; Releases metartc/metaRTC GitHub 版本v6.0-b4即可...

HDFS面试重点

文章目录 1. HDFS的架构2. HDFS的读写流程3.HDFS中&#xff0c;文件为什么以block块的方式存储&#xff1f; 1. HDFS的架构 HDFS的架构可以分为以下几个主要组件&#xff1a; NameNode&#xff08;名称节点&#xff09;&#xff1a; NameNode是HDFS的关键组件之一&#xff0c;…...

mask rcnn,fasterrcnn,ssd,yolov5,6,7,8在win10,ubuntu环境搭建,代跑数据集,yolov8yolov7Yolov9Yolov10

mask rcnn&#xff0c;fasterrcnn&#xff0c;ssd&#xff0c;yolov5,6,7,8在win10,ubuntu环境搭建&#xff0c;代跑数据集&#xff0c; yolov8 yolov7 Yolov9 Yolov10...

决策树:从入门到精通,一个算法搞定分类与回归

还在为选择什么算法发愁&#xff1f;决策树既能分类又能回归&#xff0c;解释性还超强&#xff0c;今天带你彻底搞懂它一、引言如果你正在学习机器学习&#xff0c;那么决策树绝对是你绕不开的一道坎。为什么&#xff1f;因为它太实用了——银行用它来判断是否给用户批贷款&…...

别再死记硬背了!一张图帮你理清InfiniBand那些让人头疼的术语(HCA/QP/LID/GID)

从数据流视角拆解InfiniBand&#xff1a;用一次完整通信串联核心术语 第一次接触InfiniBand的技术文档时&#xff0c;那些缩写字母组合——HCA、QP、CQ、LID、GID——就像天书般令人困惑。它们被分门别类地罗列在文档中&#xff0c;却缺乏实际场景中的互动关系。本文将打破传统…...

Oracle 数据仓库星型模型设计原则

星型模式&#xff08;Star Schema&#xff09;是 Oracle 数据仓库最核心、最常用的建模范式&#xff0c;核心是1 张中心事实表 N 张维度表&#xff0c;事实表存储度量数据&#xff0c;维度表存储描述属性&#xff0c;通过外键关联&#xff0c;结构清晰、查询高效、适配 Oracle…...

解放你的文件夹:智能文件整理Agent,让杂乱文件一键归位

核心功能&#xff1a;不止是“按类型分类”市面上很多文件整理工具只能简单按后缀名归类&#xff0c;但实际使用中我们的需求远不止于此——比如按项目维度、按时间前缀、按业务场景整理&#xff0c;甚至要区分大文件/近期文件避免误操作。这款工具的核心亮点在于&#xff1a;1…...

Comsol仿真:三相电力变压器电磁场与电路耦合计算,精确预测高低压绕组电压电流分布及磁通密度分布

comsol三相电力变压器电磁场和电路耦合计算&#xff0c;可以得到变压器高低压绕组电压电流分布以及变压器磁通密度分布&#xff0c;今天我们来聊聊如何在COMSOL中模拟三相电力变压器的电磁场和电路耦合计算。通过这个模拟&#xff0c;我们可以得到变压器高低压绕组的电压电流分…...

Blender 3MF插件:3D打印工作流的革命性升级方案

Blender 3MF插件&#xff1a;3D打印工作流的革命性升级方案 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 在3D打印领域&#xff0c;设计师们长期面临一个核心痛点&…...

【技术干货】Gemma 4 全面实战:从高效推理到本地 Agent 工作流落地指南

【技术干货】Gemma 4 全面实战&#xff1a;从高效推理到本地 Agent 工作流落地指南摘要 本文围绕 Google 新一代开源模型家族 Gemma 4&#xff0c;系统解析其架构特点、推理效率、Agent 工作流与本地部署能力。结合实际开发场景&#xff0c;给出基于兼容 OpenAI 接口平台&#…...

分人群AI建站工具解决方案:中小企、创业者、外贸人、创作者怎么选?

分人群AI建站工具解决方案&#xff1a;中小企、创业者、外贸人、创作者怎么选&#xff1f;同样是找“AI建站工具”&#xff0c;一个个体摄影师和一个初创公司老板&#xff0c;心里的需求清单可能完全不同。这篇内容我们就来对不同人群&#xff0c;分别给出适合的建站思路和工具…...

AI辅助开发:利用快马智能生成技能学习路径推荐算法

AI辅助开发&#xff1a;利用快马智能生成技能学习路径推荐算法 最近在做一个技能学习平台的项目&#xff0c;需要实现一个智能推荐系统。作为独立开发者&#xff0c;面对复杂的推荐算法和数据处理逻辑有点无从下手。这时候发现了InsCode(快马)平台的AI辅助开发功能&#xff0c…...