当前位置: 首页 > news >正文

彩蛋丨利用R语言脚本实现批量合并Excel表格,再也不用手动点来点去了!

利用R语言脚本实现批量合并Excel表格

在整理数据的时候遇到一个问题:假如有很多个excel表,分别存放了一部分数据,现在想要快速把这些表格的数据汇总到一起,如何用R语言快速完成呢?本文分享一个脚本,能够自动完成类似的工作。

输入文件与背景介绍

假如每个材料(样本)的ID编号是从N001开始依次递增,现在有很多excel表格,第一列是ID信息,之后的每一列代表一个变量(性状、表型),以下用两个表格(多个表格方法同理)举栗子:

image-20230430214258355
image-20230430214258355

细心的朋友肯定发现了ID这一列不是连续的,而且有缺失,也就是说有些样品的数据是空缺的。在统计的时候,需要将空缺值设为NA,有数据的值按位置提取,最终想要如下样式的数据:

> df_out_660
     ID type year name
1  N001    D 2015 小王    # 来自B表
2  N002 <NA>   NA <NA>
3  N003 <NA>   NA <NA>
4  N004 <NA>   NA <NA>
5  N005 <NA>   NA 大壮    # 来自A表
6  N006 <NA>   NA <NA>
7  N007 <NA>   NA <NA>
8  N008    F 2017 小张
9  N009 <NA>   NA <NA>

解决思路与逻辑关系

  • R语言tidyverse、xlsx包
  • 读入样品ID序列信息,用于后续生成结果文件
  • 迭代读取每个子文件,然后进行左连接
  • 对左连接后的数据判断回原有位置看是否为空
  • 若原有位置为空,则替换为新值
  • 保存最终结果

操作步骤

载入R包和数据

library(xlsx)
library(tidyverse)
# 以下示例仅用两个表格
df_info <- read.xlsx("test.xlsx",sheetName = "info",header = T)
df_A <- read.xlsx("test.xlsx",sheetName = "dataA",header = T)
df_B <- read.xlsx("test.xlsx",sheetName = "dataB",header = T)

所有样品的ID序列按顺序保存在df_info中,另外将每个小表格读入,需要保证第一行信息一致。

数据左连接

df_B_out <- left_join(df_sample,df_A,by="ID")
df_A_out <- left_join(df_sample,df_B,by="ID")

分别将原始样品序列表格和每个子表做左连接,类似于excel中的VLOOKUP函数,得到单个结果。

数据汇总与保存

接下来,对连接后的单个结果做合并处理,通过迭代判断每个单元格的值是否为NA,假如空缺的话将下一个子表的该单元格值替换到这里,达到使不同单元格的值都转移到一张总表的效果,通过这种方式可以将不同子表叠放在一起,获得一张大表,然后将结果输出保存。

for (i in 1:nrow(df_B_out)){
      sample <- df_B_out$ID[i]
      print(sample)
      for (m in 4:ncol(df_B_out)){
            phe <- colnames(df_B_out)[m]
            if (is.na(df_B_out[i,m])){
                  if (!is.na(df_A_out[i,m])){
                        df_B_out[i,m] <- df_A_out[i,m]
                  }
            }
      }
}
write.csv(df_B_out,"./all.csv",quote = F,row.names = F)

灵感小记

谢谢你有耐心看到这里,如果上文中的步骤理解起来比较抽象,我用更通俗易懂的方式说明一下:

假如某项工作需要合作完成最后进行汇总,比如你想做一个调查,每个人只调查一小部分。方法是先用A4纸打印出空模板,然后分发给很多人去同时做,每个人可能只需要填其中的指定某几行。

image-20230430222350978
image-20230430222350978

最后,你辛苦的收集起来了很多张A4纸,每张上都记录了某部分信息,现在一个问题困扰着你:怎么把这些东一块西一块的数据快速合并到你最初的A4纸上?最快的方法是做梦,我梦到我把一大摞A4纸整齐的摞在一起,这时每张A4值的相同单元格处于空间位置的同一维度,只要我大力出奇迹把纸压的特别紧(直到成为二维平面),那么此时我就得到了一张汇总了所有数据的表格(因为不同子表中非空值均被映射到一维状态)

本文就是梦照进现实。

本文由 mdnice 多平台发布

相关文章:

彩蛋丨利用R语言脚本实现批量合并Excel表格,再也不用手动点来点去了!

利用R语言脚本实现批量合并Excel表格 在整理数据的时候遇到一个问题&#xff1a;假如有很多个excel表&#xff0c;分别存放了一部分数据&#xff0c;现在想要快速把这些表格的数据汇总到一起&#xff0c;如何用R语言快速完成呢&#xff1f;本文分享一个脚本&#xff0c;能够自动…...

深入学习MYSQL-数据操纵及视图

前言 本博客中的例子和文字大部分来源于书籍《mysql必会知识》&#xff0c;后续会根据更多的书籍不断完善此笔记。 插入操作 可以这种方式向数据库插入两条数据&#xff0c;mysql和pg都支持这种写法。在实战中我们应该更多的使用这种写法&#xff0c;因为数据库的批量操作会…...

深入讲解eMMC简介

1 eMMC是什么 eMMC是embedded MultiMediaCard的简称&#xff0c;即嵌入式多媒体卡,是一种闪存卡的标准&#xff0c;它定义了基于嵌入式多媒体卡的存储系统的物理架构和访问接口及协议&#xff0c;具体由电子设备工程联合委员会JEDEC订立和发布。它是对MMC的一个拓展&#xff0…...

ICV:中国车载超声波雷达市场规模预计2024年可达20亿美元

近年来&#xff0c;由于市场对车辆先进安全功能的需求的增加&#xff0c;汽车超声波传感器市场一直保持稳步增长。ICV估计&#xff0c;车载超声波传感器全球市场预计在2022年至2027年之间以11.5&#xff05;的复合年增长率增长&#xff0c;这种增长是由越来越多的高级驾驶辅助系…...

PointNet:利用深度学习对点云进行3D分类和语义分割

PointNet&#xff1a;利用深度学习对点云进行3D分类和语义分割 参考自&#xff0c;PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 代码仓库地址为&#xff1a;https://github.com/charlesq34/pointnet/ 介绍 这次介绍的是一个比较基础的工作…...

第四十二章 Unity 下拉框 (Dropdown) UI

本章节我们介绍下拉框 (Dropdown)&#xff0c;我们点击菜单栏“GameObject”->“UI”->“Dropdown”&#xff0c;然后调整它的位置&#xff0c;效果如下 其实它的本质就是一个下拉列表&#xff0c;然后选择列表中的一个选项而已。大家在很多网页中应该可以看到类似的UI元…...

STL常用梳理——STACK、QUEUE

STL——适配器篇 1、ListSTL list 容器介绍list使用 2、适配器介绍3、Deque容器Stack、Queue适配器实现 1、List STL list 容器介绍 STL list 容器&#xff0c;又称双向链表容器&#xff0c;即该容器的底层是以双向链表的形式实现的。这意味着&#xff0c;list 容器中的元素可…...

Unity物理系统基本概念

前言&#xff1a;物理引擎仅仅是对现实物理的一种近似模拟。无论是从运算精度和时间连续性都不够准确。目的只是为了让游戏具备令人信服的物理表现&#xff0c;增强游戏的表现力和用户的沉浸感。 一、刚体Rigidbody 刚体是让物体产生物理行为的主要组件。一旦挂载了Rigidbody组…...

防止表单重复提交的几种方式,演示一个自定义注解方式的实现

防止表单重复提交的几种方式&#xff0c;演示一个自定义注解方式的实现 一、防止表单重复提交的几种方式方式一&#xff1a;Token 机制方式二&#xff1a;去重表&#xff08;主要是利用 MySQL 的唯一索引机制来实现的&#xff09;方式三&#xff1a;Redis 的 setnx方式四&#…...

《基于智能手机采集的PPG信号预测血管老化》阅读笔记

目录 一、论文摘要 二、论文十问 Q1: Q1论文试图解决什么问题&#xff1f; Q2: 这是否是一个新的问题&#xff1f; Q3: 这篇文章要验证一个什么科学假设&#xff1f; Q4: 有哪些相关研究&#xff1f;如何归类&#xff1f;谁是这一课题在领域内值得关注的研究员&#xff1f…...

【大数据-调度工具】dolphinscheduler安装和遇到的问题

1.安装 安装步骤按照官网安装即可 官网&#xff1a;DolphinScheduler | 文档中心 (apache.org) 版本&#xff1a;3.1.5 2.踩坑记录 Q1.大文件无法上传 问题描述&#xff1a; 在资源中心中上传文件选择完大文件夹之后&#xff0c;选择确认之后确认按钮转了几圈圈之后就没…...

滑动轨迹生成的思路和代码分享-测试可过极验 90%机率

如有技术侵权、可联系本人下架 由于极验采用人工智能的方式对滑动的轨迹进行的验证,因此如果我们比较随意的生成鼠标滑动轨迹基本是肯定被封的,因此我们要详细分析一下鼠标轨迹的规律, 通之前介绍的调试手段,手工滑动滑块,获取到鼠标滑动轨迹的集合数组如下: [[-37,-41…...

【Linux】项目自动化构建工具make/makefile

&#x1f3d6;️作者&#xff1a;malloc不出对象 ⛺专栏&#xff1a;Linux的学习之路 &#x1f466;个人简介&#xff1a;一名双非本科院校大二在读的科班编程菜鸟&#xff0c;努力编程只为赶上各位大佬的步伐&#x1f648;&#x1f648; 目录 前言一、make/makefile的背景二、…...

【系分范文】论软件需求获取技术以及应用

目录 论题论题介绍论文要点理论素材准备范文摘要正文论题 论软件需求获取技术以及应用 论题介绍 软件需求是指用户对新系统在功能、行为、性能、设计约束等方面的期望。软件需求获取是一个确定和理解不同的项目干系人的需求和约束的过程。需求获取是否科学、准备充分,对获取…...

vue2.0中post请求

vue2.0中post请求 三种格式&#xff1a;在vue中axois的用法&#xff1a;1、 multipart/form-data类型2、 x-www-form-urlencoded类型3、 application/json类型 三种格式&#xff1a; ○ Content-Type:x-www-form-urlencoded ○ Content-Type:multipart/form-data ○ Content…...

MySQL双写缓冲区(Doublewrite Buffer)

本文已收录至Github&#xff0c;推荐阅读 &#x1f449; Java随想录 文章目录 摘要为什么需要Doublewrite BufferDoublewrite Buffer原理Doublewrite Buffer相关参数总结 摘要 InnoDB是MySQL中一种常用的事务性存储引擎&#xff0c;它具有很多优秀的特性。其中&#xff0c;Dou…...

免费开源的Umi-OCR 文字识别工具

大家好&#xff0c;我是小寻&#xff0c;欢迎关注公众号:工具优选&#xff0c;免费领取优质项目源码和常用工具&#xff0c;还可以加入我的交流群! 如今&#xff0c;在日常生活和工作中&#xff0c;我们经常需要捕捉屏幕截图并识别其中的文本信息。比如别人给你发资料时直接发…...

如何让微信小程序弹窗滚动条设置在最上面

最近发现一个事情搞得很烦&#xff0c;微信小程序的弹窗内容可以滚动的时候&#xff0c;要保证每一次打开都在最上面&#xff0c;研究了一下终于发现了怎么解决 第一步 首先得把你的弹窗里面的内容用scroll-view标签包起来&#xff0c;像这样 <scroll-view style"hei…...

c语言-指针

指针详解 ​ 这段时间在看 Linux内核&#xff0c;深觉C语言功底不扎实&#xff0c;很多代码都看不太懂&#xff0c;深入学习巩固C语言的知识很有必要。先从指针开始。 什么是指针 ​ C语言里&#xff0c;变量存放在内存中&#xff0c;而内存其实就是一组有序字节组成的数组&…...

Jenkins集成SonarQube实现代码质量检查

文章目录 一、前提配置1.1 安装及配置SonarQube Scanner插件1.2 配置SonarQube servers 二、非流水线集成SonarQube1.1 配置非流水线任务 三、流水线集成SonarQube 一、前提配置 1.1 安装及配置SonarQube Scanner插件 (1) 点击【系统管理】>【插件管理】>【可选插件】搜…...

如何在 React Native 中使用 Expo AV 高效缓存视频文件

本文详解在裸 React Native 项目中集成 expo-av 实现视频本地缓存的完整方案&#xff0c;涵盖路径处理、文件写入、URI 适配及常见兼容性问题&#xff08;如 react-native-fs 路径不被 expo-av 识别&#xff09;&#xff0c;并提供可直接运行的优化代码与关键注意事项。 本…...

在Windows上用Visual Studio 2022集成SECS/GEM库:一个半导体设备工程师的C++实战笔记

在Windows上用Visual Studio 2022集成SECS/GEM库&#xff1a;一个半导体设备工程师的C实战笔记 半导体制造设备的自动化控制离不开SECS/GEM协议的支撑。作为设备端开发工程师&#xff0c;我们常常需要在Windows平台上用C实现这套关键通讯系统。本文将基于Visual Studio 2022开发…...

Git-RSCLIP多模态检索实战:输入‘干旱期农田龟裂纹理’召回匹配影像

Git-RSCLIP多模态检索实战&#xff1a;输入干旱期农田龟裂纹理召回匹配影像 1. 引言&#xff1a;当遥感图像遇上智能检索 想象一下这样的场景&#xff1a;你手头有成千上万张遥感图像&#xff0c;需要快速找到那些显示"干旱期农田龟裂纹理"的图片。传统方法可能需要…...

腾讯云推出“领域虾”CloudQ:把企业云上治理,装进你每天都在用的聊天框

好家伙&#xff0c;腾讯云又给龙虾市场上新了。最近&#xff0c;腾讯云官宣的 CloudQ IT 老师傅&#xff08;全球首款 ITOM“领域虾”&#xff09;&#xff0c;直接把云上的技术难题给办了。你甚至都不用登录控制台、不用敲命令&#xff0c;在微信里聊聊天就能完成架构巡检、风…...

GHelper全面革新:华硕笔记本硬件控制的智能突破方案

GHelper全面革新&#xff1a;华硕笔记本硬件控制的智能突破方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar…...

如何通过CyberpunkSaveEditor实现赛博朋克2077存档编辑与自定义体验?

如何通过CyberpunkSaveEditor实现赛博朋克2077存档编辑与自定义体验&#xff1f; 【免费下载链接】CyberpunkSaveEditor A tool to edit Cyberpunk 2077 sav.dat files 项目地址: https://gitcode.com/gh_mirrors/cy/CyberpunkSaveEditor 赛博朋克2077存档修改是许多玩家…...

多语言双轨直销系统开发要点

系统架构设计 采用微服务架构确保模块化与扩展性&#xff0c;支持高并发场景。数据库设计需考虑多语言数据存储&#xff0c;推荐使用NoSQL&#xff08;如MongoDB&#xff09;处理非结构化翻译内容。负载均衡技术保障全球用户访问速度。核心功能模块 会员管理模块实现双轨层级计…...

Windows和Office激活终极解决方案:KMS_VL_ALL_AIO完全指南

Windows和Office激活终极解决方案&#xff1a;KMS_VL_ALL_AIO完全指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 你是否厌倦了Windows系统频繁弹出激活提醒&#xff1f;是否因为Office软件…...

深朴智能与生数科技达成深度战略合作,共筑物理世界的通用智能

4月2日&#xff0c;通用具身智能机器人企业北京深朴智能科技有限公司&#xff08;以下简称“深朴智能”&#xff09;与通用世界模型公司北京生数科技有限公司&#xff08;以下简称“生数科技”&#xff09;宣布达成深度战略合作。双方将围绕“通用具身智能大脑”这一核心方向展…...

downkyi全链路解决方案:从视频获取到专业处理的一站式视频工作流指南

downkyi全链路解决方案&#xff1a;从视频获取到专业处理的一站式视频工作流指南 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、…...