数据分析类论文通过stata进行数据预处理(一)
一:导入数据
打开Stata命令窗口,输入以下命令:
use "文件路径\数据文件名.dta", clear
其中,.dta
是Stata的数据文件格式。clear
选项用于在打开新数据文件前关闭当前数据集。
以下是一些导入不同格式数据的方法:
import excel "path_to_file.xlsx", firstrow clear
firstrow
选项表示数据的第一行包含变量名。
二:删除和保留变量
删除多个变量:
drop 变量名1 变量名2 变量名3
删除变量列表:
drop 变量名1-变量名N
删除除指定变量外的所有变量(即保留指定变量):
keep 变量名1 变量名2
三:重命名变量
重命名单个变量:
rename 旧变量名 新变量名
四:生成新变量
使用generate命令(gen)
generate
命令(通常简写为 gen
)是最常用的方法来创建一个新变量。
gen 新变量名 = 表达式
例如,如果想根据变量 age
生成一个表示年龄是否大于30的新变量 age_gt_30
,可以这样写:
gen age_gt_30 = (age > 30)
这将创建一个虚拟变量(0或1),其中1表示年龄大于30,0表示不大于30。
五:标签变量和值
在Stata中,为变量和它们的值添加标签可以使数据集更易于理解和分析。以下是如何在Stata中给变量和值添加标签的方法:
要给变量添加标签,可以使用 label variable
命令:
label variable 变量名 "标签文本"
例如,如果有一个名为 age
的变量,你可以这样给它添加标签:
label variable age "年龄"
要给变量的特定值添加标签,可以使用 label define
和 label values
命令。
首先,使用 label define
命令创建一个标签定义:
label define 标签名 value1 "标签文本1" value2 "标签文本2" ...
例如,如果有一个名为 gender
的变量,其值为1和2,分别代表男性和女性,可以这样定义标签:
label define gender_lbl 1 "男性" 2 "女性"
然后,使用 label values
命令将标签定义应用到变量上:
label values 变量名 标签名
继续上面的例子:
label values gender gender_lbl
现在,变量 gender
的值1和2将分别显示为“男性”和“女性”。
以下是一个完整的例子,展示了如何给一个变量及其值添加标签:
* 创建一个新变量
gen gender = 1 if sex == "male"
replace gender = 2 if sex == "female"* 给变量添加标签
label variable gender "性别"* 定义值的标签
label define gender_lbl 1 "男性" 2 "女性"* 将标签应用到变量
label values gender gender_lbl
通过给变量和值添加标签,你可以使Stata输出结果更加清晰,特别是在生成表格和图表时。
六:数据类型转换
在Stata中,数据类型转换是一个常见的操作,因为它确保了数据以正确的格式存储,这对于后续的分析至关重要。以下是在Stata中进行数据类型转换的方法:
如果有一个字符串变量,但需要将其转换为数值型变量,可以使用 generate
(gen
) 命令结合 real()
或 float()
函数:
gen newvar = real(oldvar)
或者,如果数据是浮点数,可以使用:
gen newvar = float(oldvar)
如果转换过程中遇到非数值字符,Stata会将那些观测值设置为缺失值(.
)。
将数值型变量转换为字符串变量,可以使用 generate
(gen
) 命令结合 string()
函数:
gen newvar = string(oldvar)
可以指定转换后的字符串长度:
gen newvar = string(oldvar, "%10.2f")
destring
命令用于将字符串变量转换为数值型变量,它比 real()
或 float()
函数提供了更多的选项来处理转换过程中可能遇到的错误:
destring oldvar, generate(newvar) [options]
选项包括:
replace
:替换原有变量而不是生成新变量。force
:即使遇到无法转换的字符也继续转换其他值。ignore("string")
:忽略指定的字符串,将其视为缺失值。
在转换数据类型时,确保目标数据类型能够容纳原始数据,以避免数据丢失。如果字符串变量包含非数值字符,转换可能会导致数据丢失或转换为缺失值。
七:排序数据
在Stata中,排序数据是一个基本的数据管理操作,它可以帮助你按照特定的变量顺序排列数据集。以下是在Stata中排序数据的方法:
sort
命令是Stata中最常用的排序命令。允许按照一个或多个变量的升序(默认)或降序来排列数据。
要按照单个变量升序排序,可以使用以下命令:
sort variable_name
如果要按降序排序,可以在变量名后添加 desc
:
sort variable_name desc
也可以按照多个变量进行排序。首先按照第一个变量排序,然后在第一个变量值相同的情况下,按照第二个变量排序,依此类推。
sort variable1 [variable2 [variable3 ...]] [desc]
例如,如果想先按age
升序排序,然后在age
相同的情况下按income
降序排序,可以使用:
sort age income desc
八:合并数据集
在Stata中,合并数据集是一个常见的操作,它允许用户将两个或多个数据集合并成一个。
merge
命令用于根据一个或多个键变量(key variables)将两个数据集合并。
merge [merge_options] [keyvarlist] using filename [if] [in] [, options]
merge_options
可以是1:1
,m:1
, 或1:m
,指定合并的类型。keyvarlist
是在两个数据集中都存在的变量,用于匹配记录。filename
是要合并的第二个数据集的文件名。[if]
和[in]
是可选的条件语句,用于限制合并的范围。options
是其他可选参数,如update
或replace
。
一对一合并两个数据集,假设它们都有名为id
的键变量:
merge 1:1 id using another_dataset.dta
多对一合并,其中第一个数据集的每条记录可以与第二个数据集的多条记录匹配:
merge m:1 id using another_dataset.dta
- 在合并之前,两个数据集应该根据键变量进行排序。
- 合并后,Stata会在结果数据集中添加一个名为
_merge
的变量,它指示每条记录的合并状态(3个可能的值:1表示只在第一个数据集中,2表示只在第二个数据集中,3表示在两个数据集中都存在)。
九:数据检查
在Stata中进行数据检查是确保数据质量的重要步骤。以下是一些常用的方法来检查数据:
describe
命令提供数据集的基本信息,包括变量名称、类型、标签和观测值数量。
describe
summarize
命令:提供变量的统计概要,包括均值、标准差、最小值、最大值、中位数等。
summarize
list
命令:可以列出数据集中的特定观测值,特别是缺失值。
list varname if varname == .
misstable
命令:提供详细的缺失值报告。
misstable summarize
tabulate
命令用于分类变量,可以检查分类变量的分布。
tabulate varname
histogram
命令:绘制变量的直方图,帮助识别异常值。
histogram varname
graph box
命令:绘制箱线图,用于识别异常值。
graph box varname
assert
命令:用于检查数据是否满足特定的逻辑条件。如果不满足,会显示错误。
assert varname > 0
codebook
命令:提供变量的详细信息,包括值标签和缺失值的数量。
codebook varname
十:处理缺失值
在Stata中处理缺失值是数据分析前的重要步骤。以下是一些处理缺失值的常用方法:
删除含有缺失值的观测:
drop if varname == .
删除所有含有缺失值的变量:
drop varname if missing(varname)
使用固定值替换缺失值:
replace varname = value if varname == .
使用变量的均值、中位数、众数等统计量替换缺失值:
summarize varname, detail
replace varname = r(mean) if varname == .
使用线性插值(适用于时间序列数据):
ipolate varname timevar, generate(newvarname)
使用多重插补(Multiple Imputation)
Stata提供了mi
命令集来进行多重插补,这是一个更高级的处理缺失值的方法。
mi set mlong
mi register imputed varname
mi impute chained (regress) varname = othervars, add(5)
mi estimate: regress dependentvar varname othervars
如果数据是面板数据(panel data),可以使用其他时间点的观测值来填充缺失值:
bysort id: egen varname_fill = mean(varname)
replace varname = varname_fill if varname == .
drop varname_fill
使用统计模型预测缺失值,并将预测值填充到缺失的位置:
regress varname othervars
predict varname_pred
replace varname = varname_pred if varname == .
drop varname_pred
- 在处理缺失值之前,了解缺失数据的机制(完全随机缺失、随机缺失、非随机缺失)是非常重要的,因为这会影响处理方法的选择。
- 删除缺失值可能会导致样本量减少,从而影响分析结果的可靠性。
- 替换缺失值可能会引入偏差,特别是如果缺失不是完全随机的。
- 多重插补是一个相对复杂的过程,但它可以提供更稳健的估计,因为它考虑了缺失值的不确定性。
相关文章:
数据分析类论文通过stata进行数据预处理(一)
一:导入数据 打开Stata命令窗口,输入以下命令: use "文件路径\数据文件名.dta", clear其中,.dta是Stata的数据文件格式。clear选项用于在打开新数据文件前关闭当前数据集。 以下是一些导入不同格式数据的方法&#x…...

力扣——1.返回字符串中第一个唯一的字符;2.把字符串转换成整数(C++)
1.返回字符串中第一个唯一的字符 1.1题目描述 给定一个字符串s ,找到它的第一个不重复的字符,并返回它的索引 。如果不存在,则返回 -1 。 示例: 1.2思路 这里提供两种思路:第一种是利用哈希表,先遍历一…...

M-LAG【根桥方式】
1.M-LAG不是有单向隔离机制天然防环吗,为什么还要使用STP? 答:因为M-LAG设备下面不是只接服务器,也不是和所有下联设备组成M-LAG,和没有组成M-LAG的设备可能会造成环路。 2.为什么要关闭peer-link接口的生成树计算&a…...

新书速览|循序渐进Node.js企业级开发实践
《循序渐进Node.js企业级开发实践》 1 本书内容 《循序渐进Node.js企业级开发实践》结合作者多年一线开发实践,系统地介绍了Node.js技术栈及其在企业级开发中的应用。全书共分5部分,第1部分基础知识(第1~3章)…...

Xlsxwriter生成Excel文件时TypeError异常处理
在使用 XlsxWriter 生成 Excel 文件时,如果遇到 TypeError,通常是因为尝试写入的值或格式与 XlsxWriter 的限制或要求不兼容。 1、问题背景 在使用 Xlsxwriter 库生成 Excel 文件时,出现 TypeError: “expected string or buffer” 异常。此…...

【NLP高频面题 - LLM架构篇】大模型使用SwiGLU相对于ReLU有什么好处?
【NLP高频面题 - LLM架构篇】大模型使用SwiGLU相对于ReLU有什么好处? 重要性:★★★ 💯 NLP Github 项目: NLP 项目实践:fasterai/nlp-project-practice 介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化…...

2021 年“泰迪杯”数据分析技能赛B 题肥料登记数据分析
2021 年“泰迪杯”数据分析技能赛B 题肥料登记数据分析 完整代码请私聊 博主 # 一、背景 肥料是农业生产中一种重要的生产资料,其生产销售必须遵循《肥料登记管理办法》,依法在农业行政管理部门进行登记。各省、自治区、直辖市人民政府农业行政主管部门主…...

网络原理之 IP 协议
目录 1. IP 协议报文格式 2. 网段划分 3. 地址管理 1) 动态分配 2) NAT 机制 (网络地址转换) 3) IPv6 4. 路由选择 1. IP 协议报文格式 IP 协议是网络层的重点协议。 网络层要做的事情,主要就是两方面: 1) 地址管理 制定一系列的规则ÿ…...
在 Spring Boot 项目中使用 Thymeleaf 时,通常情况下,你需要配置热加载(Hot Reload)来在开发过程中更快速地看到页面的变化。
配置步骤: 1. 添加 DevTools 依赖 在 pom.xml 中添加 spring-boot-devtools 依赖。DevTools 提供了自动重启、LiveReload、模板热加载等功能。 <dependencies><!-- Spring Boot DevTools (用于热加载) --><dependency><groupId>org.spri…...
arm-linux GPIO控制-脚本及shell格式
以下是针对BCM编号27, 28, 29, 30, 31的shell命令 shell方式 导出GPIO引脚 echo 27 > /sys/class/gpio/export echo 28 > /sys/class/gpio/export echo 29 > /sys/class/gpio/export echo 30 > /sys/class/gpio/export echo 31 > /sys/class/gpio/export 设…...

Go 语言基础知识语法
很早听人说过一句话:“每年学习(接触)一门新的编程语言”,这听起来可能有点不太现实,但是其实很多种语言都是相通的。掌握新的编程语言不仅仅是增加职业工具箱中的工具,更是一种扩展我们思维方式、解决问题…...

贪心算法part05
文章参考来源代码随想录 (programmercarl.com) 56. 合并区间 本题和前几题类似,都是判断上一个元素的右边界与当前元素的左边界大小关系 但是需要注意是:本题需要更新结果数组元素的右边界,因此比较的是数组最后一个元素右边界与当前元素左…...
02、SpringMVC核心(上)
一、RequestMapping注解 @Target({ElementType.TYPE, ElementType.METHOD}) @Retention(RetentionPolicy.RUNTIME) @Documented @Mapping @Reflective({ControllerMappingReflectiveProcessor.class}) public @interface RequestMapping {String name() default "";…...

EasyPlayerPro的同一个组件实例根据url不同展示视频流
效果 学习 url的组成 webrtc://192.168.1.225:8101/index/api/webrtc?applive&stream001&typeplay 协议部分 webrtc://: 这表示使用 WebRTC 协议来进行实时通信。WebRTC 允许浏览器之间直接交换音频、视频和其他数据,而不需要通过中间服务器 主机和端口部分…...

哈希表介绍、实现与封装
哈希表介绍、实现与封装 一、哈希概念二、哈希表实现直接定址法其他映射方法介绍1. 哈希冲突2. 负载因子3. 将关键字转为整数4. 设计哈希函数除法散列法 / 除留余数法乘法散列法全域散列法其他方法 将关键字转为整数处理哈希冲突开放定址法线性探测二次探测双重散列 开放定址法…...

使用vm配置网络
查看本地ip 配置vm网络 配置固定ip vi /etc/sysconfig/network-script/ifcfg-ens33参考 vm使用nat模式,导致vm中docker部署的服务,无法通过局域网中其他机器连接 https://www.cnblogs.com/junwind/p/14345385.html 三张图看懂vm中,三种网…...
OpenStack介绍
OpenStack概述 OpenStack是一个开源的云计算管理平台软件,主要用于构建和管理云计算环境。它允许企业或组织通过数据中心的物理服务器创建和管理虚拟机、存储资源和网络等云计算服务。其核心组件包括计算(Nova)、网络(Neutron)、存储(Cinder、Swift)等。这些组件相互协作…...
力扣93题:复原 IP 地址
力扣93题:复原 IP 地址(C语言实现详解) 题目描述 给定一个只包含数字的字符串 s,复原它并返回所有可能的 IP 地址格式。 有效的 IP 地址需满足以下条件: IP 地址由四个整数(每个整数位于 0 到 255 之间…...

mock.js介绍
mock.js http://mockjs.com/ 1、mock的介绍 *** 生成随机数据,拦截 Ajax 请求。** 通过随机数据,模拟各种场景;不需要修改既有代码,就可以拦截 Ajax 请求,返回模拟的响应数据;支持生成随机的文本、数字…...

React开发 - 技术细节汇总一
React简介 React 是一个声明式,高效且灵活的用于构建用户界面的 JavaScript 库。使用 React 可以将一些简短、独立的代码片段组合成复杂的 UI 界面,这些代码片段被称作“组件”。 ui render (data) -> 单向数据流 MVC // model var myapp {}; // …...

51c自动驾驶~合集58
我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...

【第二十一章 SDIO接口(SDIO)】
第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...
C++中string流知识详解和示例
一、概览与类体系 C 提供三种基于内存字符串的流,定义在 <sstream> 中: std::istringstream:输入流,从已有字符串中读取并解析。std::ostringstream:输出流,向内部缓冲区写入内容,最终取…...
unix/linux,sudo,其发展历程详细时间线、由来、历史背景
sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...
Java线上CPU飙高问题排查全指南
一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...
Java 二维码
Java 二维码 **技术:**谷歌 ZXing 实现 首先添加依赖 <!-- 二维码依赖 --><dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.1</version></dependency><de…...
MySQL 部分重点知识篇
一、数据库对象 1. 主键 定义 :主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。 作用 :确保数据的完整性,便于数据的查询和管理。 示例 :在学生信息表中,学号可以作为主键ÿ…...
第7篇:中间件全链路监控与 SQL 性能分析实践
7.1 章节导读 在构建数据库中间件的过程中,可观测性 和 性能分析 是保障系统稳定性与可维护性的核心能力。 特别是在复杂分布式场景中,必须做到: 🔍 追踪每一条 SQL 的生命周期(从入口到数据库执行)&#…...