Linux 大文件和大量小文件的复制策略
在Linux上复制大文件或大量小文件时,可以根据文件的类型、数量以及硬件配置(如硬盘类型、CPU、内存)选择不同的复制策略,以提高复制效率。以下是一些常见的策略和工具,可以根据具体情况使用:
1. 大文件复制策略
大文件的复制通常会受限于磁盘带宽和I/O吞吐量,因此对于单个大文件的复制策略,需要注意优化这些瓶颈。
a. 直接使用 cp
命令
cp
是Linux上最常用的文件复制命令,它适合普通的文件复制任务,但对于超大文件(例如超过几GB的大文件),可以结合一些优化参数:
cp --sparse=always --reflink=auto source_file destination_file
--sparse=always
:对稀疏文件进行优化,避免复制空块,从而减少磁盘占用。--reflink=auto
:支持克隆文件,避免实际的数据复制,节省时间和空间(如果目标文件系统支持,比如btrfs
和xfs
)。
b. 使用 rsync
对于大文件,rsync
能够提供更多的灵活性,尤其是可以在复制过程中查看进度以及处理网络传输等场景。
rsync -ah --progress source_file destination_file
-a
:归档模式,保留权限、时间戳等信息。-h
:人类可读的输出格式。--progress
:显示进度条,便于监控复制进度。
c. 使用 dd
命令
dd
是一个低级别的复制工具,可以控制块大小 (bs
) 来提高大文件的复制效率。对于大文件,选择较大的块大小(如 bs=4M
或 bs=64M
)可以减少系统开销。
dd if=source_file of=destination_file bs=4M status=progress
bs=4M
:将复制过程中的块大小设置为 4 MB。status=progress
:显示复制进度。
d. 使用 pv
查看进度
如果想要在使用 cp
或 dd
进行大文件复制时查看进度,可以将 pv
工具插入管道中:
pv source_file | dd of=destination_file bs=4M
pv
会显示文件复制的实时进度。
2. 大量小文件复制策略
复制大量小文件往往更耗时,因为每个文件的元数据(如权限、时间戳等)都会增加额外的I/O操作。针对这种情况,可以通过以下策略进行优化:
a. 使用 rsync
rsync
在处理大量小文件时非常高效,能够保持源文件的属性,同时提供增量复制、压缩和多线程支持。
rsync -ah --progress --inplace --delete source_directory/ destination_directory/
-a
:归档模式,保留元数据。--inplace
:避免创建临时文件,直接覆盖目标文件。--delete
:同步删除在目标目录中不存在的文件。
b. 使用 tar
结合管道复制
对于大量小文件,可以使用 tar
先打包文件,然后通过管道直接复制并解压到目标位置,这样可以减少单个文件操作的开销,特别是涉及到网络传输时。
tar -cf - /src_directory | pv | tar -xpf - -C /dest_directory
-c
:创建压缩包。-f -
:输出到标准输出。pv
:查看进度。-x
:解压。-C
:指定解压的目标目录。
c. 使用 cpio
cpio
是一个与 tar
类似的工具,也可以通过管道来处理大量小文件的复制:
find /src_directory -print | cpio -pdmv /dest_directory
-p
:复制模式。-d
:创建目录。-m
:保留文件修改时间。-v
:显示详细信息。
d. 使用 find
结合 xargs
和 cp
多线程复制
可以结合 find
和 xargs
来并行化文件复制,特别是对机械硬盘或者多个核心的系统:
find /src_directory -type f -print0 | xargs -0 -P 8 -I {} cp {} /dest_directory/
-P 8
:表示使用 8 个线程并行复制。-I {}
:表示替换标记,复制找到的每个文件。
e. 使用 parallel
并行复制
parallel
是一个强大的并行化工具,可以用来并行复制文件,加速大量小文件的操作:
find /src_directory -type f | parallel -j8 cp {} /dest_directory/
-j8
:表示使用 8 个并行进程。
3. 结合文件系统优化
-
EXT4 文件系统:在处理大量小文件时,可以使用
noatime
挂载选项,避免在每次访问文件时更新访问时间,从而减少 I/O 操作:sudo mount -o remount,noatime /dev/sda1 /mount_point
-
XFS 和 Btrfs:这些文件系统在处理大文件或大量小文件时,表现通常优于 EXT4,特别是在快照和压缩操作上。
4. 硬盘类型的影响
-
SSD:在复制文件时,特别是大量小文件,SSD的随机读写速度远远优于机械硬盘,可以显著加快复制速度。在 SSD 上可以并行化复制任务,例如使用
xargs
或parallel
来充分利用多核 CPU。 -
机械硬盘(HDD):由于机械硬盘的寻道时间较长,并行复制可能会导致性能下降。对于 HDD,最好采用顺序复制方式,避免过多的随机 I/O 操作。
5. 总结
- 对于大文件的复制,
cp
,rsync
,dd
和pv
都是常用的工具,结合适当的块大小和进度查看选项,可以有效提升复制速度。 - 对于大量小文件的复制,使用
rsync
,tar
,cpio
等工具,通过打包、并行化、增量复制等方式减少元数据开销,能显著提高效率。 - 根据具体硬件配置和文件系统类型选择合适的策略。
相关文章:
Linux 大文件和大量小文件的复制策略
在Linux上复制大文件或大量小文件时,可以根据文件的类型、数量以及硬件配置(如硬盘类型、CPU、内存)选择不同的复制策略,以提高复制效率。以下是一些常见的策略和工具,可以根据具体情况使用: 1. 大文件复制…...

0.3 学习Stm32经历过的磨难
文章目录 用库函数传参 能否按位或STM32库函数XXX_GetFlagStatus和XXX_GetITStatus的区别关于MDK导入文件后报错 Browse information of one files is not available用exti中断读取按键 忘记消抖 (更离谱的是,我忘记开启afio的时钟了 Damn!)D…...

9、Django Admin优化查询
如果你的Admin后台中有很多计算字段,那么你需要对每个对象运行多个查询,这会使你的Admin后台变得非常慢。要解决此问题,你可以重写管理模型中的get_queryset方法使用annotate聚合函数来计算相关的字段。 以下示例为Origin模型的中ModelAdmin…...
数据结构基础之《(3)—二分法》
一、认识二分法 1、经常见到的类型是在一个有序数组上,开展二分搜索 2、但有序真的是所有问题求解时使用二分的必要条件吗?不 3、只要能正确构建左右两侧的淘汰逻辑,你就可以二分 二、二分法怎么用 1、在一个有序数组中,找某个…...

C语言 | Leetcode C语言题解之第391题完美矩形
题目: 题解: bool isSubsequence(char* s, char* t) {int mstrlen(s); int nstrlen(t);int k0; int j0;if(mn&&m0) return true;for(int i0;i<n;i){if(s[j]t[i]){j;}if(jm) return true;}return false; }...

day47——面向对象特征之继承
一、继承(inhert) 面向对象三大特征:封装、继承、多态 继承:所谓继承,是类与类之间的关系。就是基于一个已有的类,来创建出一个新类的过程叫做继承。主要提高代码的复用性。 1.1 继承的作用 1> 实现…...
启动 Spring Boot 项目时指定特定的 application.yml 文件位置
java -jar your-spring-boot-app.jar --spring.config.locationfile:/path/to/your/config/application.yml your-spring-boot-app.jar 是你的 Spring Boot 应用的 JAR 文件名。file:/path/to/your/config/application.yml 是配置文件的绝对路径。 如果你有多个配置文件&#…...

Hive 本地启动时报错 Persistence Manager has been closed
Hive 本地启动时报错 Persistence Manager has been closed 2024-09-07 17:21:45 ERROR RetryingHMSHandler:215 - Retrying HMSHandler after 2000 ms (attempt 2 of 10) with error: javax.jdo.JDOFatalUserException: Persistence Manager has been closedat org.datanucle…...

多模态在京东内容算法上的应用
多模态在京东内容算法上的应用 作者:京东零售技术 2024-09-04 北京 本文字数:5226 字 阅读完需:约 17 分钟 本文作者唐烨参与 DataFunsummit2024:推荐系统架构峰会,在专题【多模态推荐论坛】中分享了多模态算法在京…...

SSM+Ajax实现广告系统
文章目录 1.案例需求2.编程思路3.案例源码(这里只给出新增部分的Handler和ajax部分,需要详情的可以私信我)4.小结 1.案例需求 使用SSMAjax实现广告系统,包括登录、查询所有、搜索、新增、删除、修改等功能,具体实现的效果图如下:…...
项目实战 ---- 商用落地视频搜索系统(6)---UI 结构及与service互动
目录 背景 技术问题 描述 Jinja2 概述 特性 问题解决手段 问题1 问题2 问题3 代码实现 前端代码 python代码 解释 页面展示 home 上传视频 搜索视频 背景 通过1-5 我们已经搭建好完整的后台功能,service,及准备与UI 交互的路由及接口。下面就是UI 部分的搭…...
双头BFS
牛客月赛100 D题,过了80%数据,调了一下午。。。烦死了。。。 还是没调试出来,别人的代码用5维的距离的更新有滞后性,要在遍历之前要去重。。。 #include<bits/stdc.h> using namespace std; const int N2e310; char g[N][…...
使用Spring Boot拦截器实现时间戳校验以防止接口被恶意刷
使用Spring Boot拦截器实现时间戳校验以防止接口被恶意刷 在开发Web应用程序时,接口被恶意刷请求(例如DDoS攻击或暴力破解)是一个常见的安全问题。为了提高接口的安全性,我们可以在服务端实现时间戳校验,以确保请求的…...
第10讲 后端2
主要目标:理解滑动窗口法、位姿图优化、带IMU紧耦合的优化、掌握g2o位姿图。 第9讲介绍了以为BA为主的图优化。BA能精确优化每个相机位姿与特征点位置。不过在更大的场景中,大量特征点的存在会严重降低计算效率,导致计算量越来越大࿰…...
统计学习方法与实战——统计学习方法概论
统计学习方法概论 文章目录 统计学习方法概论前言章节目录导读 实现统计学习方法的步骤统计学习方法三要素模型模型是什么? 策略损失函数与风险函数常用损失函数ERM与SRM 算法 模型评估与模型选择过拟合与模型选择 正则化与交叉验证泛化能力生成模型与判别模型生成方法判别方法…...
人体红外传感器简介
人体红外传感器的工作原理是利用热释电效应,将人体发出的特定波长的红外线转化为电信号,从而实现对人体的检测和感知。 具体来说,人体红外传感器主要由滤光片、热释电探测元和前置放大器组成。滤光片的作用是使特定波长的红外辐…...
【JAVA入门】Day35 - 方法引用
【JAVA入门】Day35 - 方法引用 文章目录 【JAVA入门】Day35 - 方法引用一、方法引用的分类1.引用静态方法2.引用成员方法2.1 引用其他类的成员方法2.2 引用本类和父类的成员方法2.3 引用构造方法2.4 使用类名引用成员方法2.5 引用数组的构造方法 二、方法引用的例题 方法引用就…...

集合及映射
1、集合类图 1)ArrayList与LinkedList 区别 LinkedList 实现了双向队列的接口,对于数据的插入速度较快,只需要修改前后的指向即可;ArrayList对于特定位置插入数据,需要移动特定位置后面的数据,有额外开销 …...

软考基础知识之计算机网络
目录 前言 网络架构与协议 网络互联模型 1、OSI/RM 各层的功能 2、TCP/IP 结构模型 常见的网络协议 1、应用层协议 2、传输层协议 3、网络层协议 IPv6 前言 从古代的驿站、 八百里快马, 到近代的电报、 电话, 人类对于通信的追求从未间断&…...

云手机怎样简化海外社媒平台运营
随着越来越多的卖家希望拓展海外市场,运营TikTok、Facebook等社交媒体平台已经成为吸引流量和促进销售的重要手段。然而,在管理海外社媒账号的过程中,许多人会面临网络连接的问题。这时,使用一款高效便捷的云手机工具就显得尤为便…...

wordpress后台更新后 前端没变化的解决方法
使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…...
R语言AI模型部署方案:精准离线运行详解
R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略
本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

全球首个30米分辨率湿地数据集(2000—2022)
数据简介 今天我们分享的数据是全球30米分辨率湿地数据集,包含8种湿地亚类,该数据以0.5X0.5的瓦片存储,我们整理了所有属于中国的瓦片名称与其对应省份,方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具
文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...

屋顶变身“发电站” ,中天合创屋面分布式光伏发电项目顺利并网!
5月28日,中天合创屋面分布式光伏发电项目顺利并网发电,该项目位于内蒙古自治区鄂尔多斯市乌审旗,项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站,总装机容量为9.96MWp。 项目投运后,每年可节约标煤3670…...
【决胜公务员考试】求职OMG——见面课测验1
2025最新版!!!6.8截至答题,大家注意呀! 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:( B ) A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...

GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...