当前位置：首页 > news >正文

Linux 大文件和大量小文件的复制策略

news 2026/2/10 2:30:49

在Linux上复制大文件或大量小文件时，可以根据文件的类型、数量以及硬件配置（如硬盘类型、CPU、内存）选择不同的复制策略，以提高复制效率。以下是一些常见的策略和工具，可以根据具体情况使用：

1. 大文件复制策略

大文件的复制通常会受限于磁盘带宽和I/O吞吐量，因此对于单个大文件的复制策略，需要注意优化这些瓶颈。

a. 直接使用 `cp` 命令

cp 是Linux上最常用的文件复制命令，它适合普通的文件复制任务，但对于超大文件（例如超过几GB的大文件），可以结合一些优化参数：

cp --sparse=always --reflink=auto source_file destination_file

--sparse=always：对稀疏文件进行优化，避免复制空块，从而减少磁盘占用。
--reflink=auto：支持克隆文件，避免实际的数据复制，节省时间和空间（如果目标文件系统支持，比如 btrfs 和 xfs）。

b. 使用 `rsync`

对于大文件，rsync 能够提供更多的灵活性，尤其是可以在复制过程中查看进度以及处理网络传输等场景。

rsync -ah --progress source_file destination_file

-a：归档模式，保留权限、时间戳等信息。
-h：人类可读的输出格式。
--progress：显示进度条，便于监控复制进度。

c. 使用 `dd` 命令

dd 是一个低级别的复制工具，可以控制块大小 (bs) 来提高大文件的复制效率。对于大文件，选择较大的块大小（如 bs=4M 或 bs=64M）可以减少系统开销。

dd if=source_file of=destination_file bs=4M status=progress

bs=4M：将复制过程中的块大小设置为 4 MB。
status=progress：显示复制进度。

d. 使用 `pv` 查看进度

如果想要在使用 cp 或 dd 进行大文件复制时查看进度，可以将 pv 工具插入管道中：

pv source_file | dd of=destination_file bs=4M

pv 会显示文件复制的实时进度。

2. 大量小文件复制策略

复制大量小文件往往更耗时，因为每个文件的元数据（如权限、时间戳等）都会增加额外的I/O操作。针对这种情况，可以通过以下策略进行优化：

a. 使用 `rsync`

rsync 在处理大量小文件时非常高效，能够保持源文件的属性，同时提供增量复制、压缩和多线程支持。

rsync -ah --progress --inplace --delete source_directory/ destination_directory/

-a：归档模式，保留元数据。
--inplace：避免创建临时文件，直接覆盖目标文件。
--delete：同步删除在目标目录中不存在的文件。

b. 使用 `tar` 结合管道复制

对于大量小文件，可以使用 tar 先打包文件，然后通过管道直接复制并解压到目标位置，这样可以减少单个文件操作的开销，特别是涉及到网络传输时。

tar -cf - /src_directory | pv | tar -xpf - -C /dest_directory

-c：创建压缩包。
-f -：输出到标准输出。
pv：查看进度。
-x：解压。
-C：指定解压的目标目录。

c. 使用 `cpio`

cpio 是一个与 tar 类似的工具，也可以通过管道来处理大量小文件的复制：

find /src_directory -print | cpio -pdmv /dest_directory

-p：复制模式。
-d：创建目录。
-m：保留文件修改时间。
-v：显示详细信息。

d. 使用 `find` 结合 `xargs` 和 `cp` 多线程复制

可以结合 find 和 xargs 来并行化文件复制，特别是对机械硬盘或者多个核心的系统：

find /src_directory -type f -print0 | xargs -0 -P 8 -I {} cp {} /dest_directory/

-P 8：表示使用 8 个线程并行复制。
-I {}：表示替换标记，复制找到的每个文件。

e. 使用 `parallel` 并行复制

parallel 是一个强大的并行化工具，可以用来并行复制文件，加速大量小文件的操作：

find /src_directory -type f | parallel -j8 cp {} /dest_directory/

-j8：表示使用 8 个并行进程。

3. 结合文件系统优化

EXT4 文件系统：在处理大量小文件时，可以使用 noatime 挂载选项，避免在每次访问文件时更新访问时间，从而减少 I/O 操作：
```
sudo mount -o remount,noatime /dev/sda1 /mount_point 
```
XFS 和 Btrfs：这些文件系统在处理大文件或大量小文件时，表现通常优于 EXT4，特别是在快照和压缩操作上。

4. 硬盘类型的影响

SSD：在复制文件时，特别是大量小文件，SSD的随机读写速度远远优于机械硬盘，可以显著加快复制速度。在 SSD 上可以并行化复制任务，例如使用 xargs 或 parallel 来充分利用多核 CPU。
机械硬盘（HDD）：由于机械硬盘的寻道时间较长，并行复制可能会导致性能下降。对于 HDD，最好采用顺序复制方式，避免过多的随机 I/O 操作。

5. 总结

对于大文件的复制，cp, rsync, dd 和 pv 都是常用的工具，结合适当的块大小和进度查看选项，可以有效提升复制速度。
对于大量小文件的复制，使用 rsync, tar, cpio 等工具，通过打包、并行化、增量复制等方式减少元数据开销，能显著提高效率。
根据具体硬件配置和文件系统类型选择合适的策略。

Linux 大文件和大量小文件的复制策略

在Linux上复制大文件或大量小文件时，可以根据文件的类型、数量以及硬件配置（如硬盘类型、CPU、内存）选择不同的复制策略，以提高复制效率。以下是一些常见的策略和工具，可以根据具体情况使用： 1. 大文件复制…...

编程日记 2024/9/7 21:14:18

0.3 学习Stm32经历过的磨难

文章目录用库函数传参能否按位或STM32库函数XXX_GetFlagStatus和XXX_GetITStatus的区别关于MDK导入文件后报错 Browse information of one files is not available用exti中断读取按键忘记消抖 （更离谱的是，我忘记开启afio的时钟了 Damn!）D…...

编程日记 2024/9/7 21:12:16

9、Django Admin优化查询

如果你的Admin后台中有很多计算字段，那么你需要对每个对象运行多个查询，这会使你的Admin后台变得非常慢。要解决此问题，你可以重写管理模型中的get_queryset方法使用annotate聚合函数来计算相关的字段。以下示例为Origin模型的中ModelAdmin…...

编程日记 2024/9/7 21:11:15

数据结构基础之《（3）—二分法》

一、认识二分法 1、经常见到的类型是在一个有序数组上，开展二分搜索 2、但有序真的是所有问题求解时使用二分的必要条件吗？不 3、只要能正确构建左右两侧的淘汰逻辑，你就可以二分二、二分法怎么用 1、在一个有序数组中，找某个…...

编程日记 2024/9/7 21:10:11

C语言 | Leetcode C语言题解之第391题完美矩形

题目： 题解： bool isSubsequence(char* s, char* t) {int mstrlen(s); int nstrlen(t);int k0; int j0;if(mn&&m0) return true;for(int i0;i<n;i){if(s[j]t[i]){j;}if(jm) return true;}return false; }...

编程日记 2024/9/7 21:09:10

day47——面向对象特征之继承

一、继承（inhert） 面向对象三大特征：封装、继承、多态继承：所谓继承，是类与类之间的关系。就是基于一个已有的类，来创建出一个新类的过程叫做继承。主要提高代码的复用性。 1.1 继承的作用 1> 实现…...

编程日记 2024/9/7 21:08:08

启动 Spring Boot 项目时指定特定的 application.yml 文件位置

java -jar your-spring-boot-app.jar --spring.config.locationfile:/path/to/your/config/application.yml your-spring-boot-app.jar 是你的 Spring Boot 应用的 JAR 文件名。file:/path/to/your/config/application.yml 是配置文件的绝对路径。如果你有多个配置文件&#…...

编程日记 2024/9/7 21:07:07

Hive 本地启动时报错 Persistence Manager has been closed

Hive 本地启动时报错 Persistence Manager has been closed 2024-09-07 17:21:45 ERROR RetryingHMSHandler:215 - Retrying HMSHandler after 2000 ms (attempt 2 of 10) with error: javax.jdo.JDOFatalUserException: Persistence Manager has been closedat org.datanucle…...

编程日记 2024/9/7 21:06:06

多模态在京东内容算法上的应用

多模态在京东内容算法上的应用作者：京东零售技术 2024-09-04 北京本文字数：5226 字阅读完需：约 17 分钟本文作者唐烨参与 DataFunsummit2024：推荐系统架构峰会，在专题【多模态推荐论坛】中分享了多模态算法在京…...

编程日记 2024/9/7 21:05:05

SSM+Ajax实现广告系统

文章目录 1.案例需求2.编程思路3.案例源码(这里只给出新增部分的Handler和ajax部分，需要详情的可以私信我)4.小结 1.案例需求使用SSMAjax实现广告系统，包括登录、查询所有、搜索、新增、删除、修改等功能，具体实现的效果图如下：…...

编程日记 2024/9/7 21:04:04

项目实战 ---- 商用落地视频搜索系统(6)---UI 结构及与service互动

目录背景技术问题描述 Jinja2 概述特性问题解决手段问题1 问题2 问题3 代码实现前端代码 python代码解释页面展示 home 上传视频搜索视频背景通过1-5 我们已经搭建好完整的后台功能，service，及准备与UI 交互的路由及接口。下面就是UI 部分的搭…...

编程日记 2024/9/7 21:03:03

双头BFS

牛客月赛100 D题，过了80%数据，调了一下午。。。烦死了。。。还是没调试出来，别人的代码用5维的距离的更新有滞后性，要在遍历之前要去重。。。 #include<bits/stdc.h> using namespace std; const int N2e310; char g[N][…...

编程日记 2024/9/7 21:02:01

使用Spring Boot拦截器实现时间戳校验以防止接口被恶意刷

使用Spring Boot拦截器实现时间戳校验以防止接口被恶意刷在开发Web应用程序时，接口被恶意刷请求（例如DDoS攻击或暴力破解）是一个常见的安全问题。为了提高接口的安全性，我们可以在服务端实现时间戳校验，以确保请求的…...

编程日记 2024/9/7 21:00:57

第10讲后端2

主要目标：理解滑动窗口法、位姿图优化、带IMU紧耦合的优化、掌握g2o位姿图。第9讲介绍了以为BA为主的图优化。BA能精确优化每个相机位姿与特征点位置。不过在更大的场景中，大量特征点的存在会严重降低计算效率，导致计算量越来越大&#xff0…...

编程日记 2024/9/7 20:59:55

统计学习方法与实战——统计学习方法概论

统计学习方法概论文章目录统计学习方法概论前言章节目录导读实现统计学习方法的步骤统计学习方法三要素模型模型是什么? 策略损失函数与风险函数常用损失函数ERM与SRM 算法模型评估与模型选择过拟合与模型选择正则化与交叉验证泛化能力生成模型与判别模型生成方法判别方法…...

编程日记 2024/9/7 20:56:52

人体红外传感器简介

人体红外传感器的工作原理是利用热释电效应，将人体发出的特定波长的红外线转化为电信号，从而实现对人体的检测和感知。具体来说，人体红外传感器主要由滤光片、热释电探测元和前置放大器组成。滤光片的作用是使特定波长的红外辐…...

编程日记 2024/9/7 20:54:47

【JAVA入门】Day35 - 方法引用

【JAVA入门】Day35 - 方法引用文章目录【JAVA入门】Day35 - 方法引用一、方法引用的分类1.引用静态方法2.引用成员方法2.1 引用其他类的成员方法2.2 引用本类和父类的成员方法2.3 引用构造方法2.4 使用类名引用成员方法2.5 引用数组的构造方法二、方法引用的例题方法引用就…...

编程日记 2024/9/7 20:52:44

集合及映射

1、集合类图 1）ArrayList与LinkedList 区别 LinkedList 实现了双向队列的接口，对于数据的插入速度较快，只需要修改前后的指向即可；ArrayList对于特定位置插入数据，需要移动特定位置后面的数据，有额外开销 …...

编程日记 2024/9/7 20:51:43

软考基础知识之计算机网络

目录前言网络架构与协议网络互联模型 1、OSI/RM 各层的功能 2、TCP/IP 结构模型常见的网络协议 1、应用层协议 2、传输层协议 3、网络层协议 IPv6 前言从古代的驿站、八百里快马， 到近代的电报、电话， 人类对于通信的追求从未间断&…...

编程日记 2024/9/7 20:47:39

云手机怎样简化海外社媒平台运营

随着越来越多的卖家希望拓展海外市场，运营TikTok、Facebook等社交媒体平台已经成为吸引流量和促进销售的重要手段。然而，在管理海外社媒账号的过程中，许多人会面临网络连接的问题。这时，使用一款高效便捷的云手机工具就显得尤为便…...

编程日记 2024/9/7 20:46:37

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/11/25 10:36:53

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2026/2/5 4:17:42

（转）什么是DockerCompose?它有什么作用？

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用，而无需手动一个个创建和运行容器。 Compose文件是一个文本文件，通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

编程新知 2026/1/31 22:59:12

IP如何挑？2025年海外专线IP如何购买？

你花了时间和预算买了IP，结果IP质量不佳，项目效率低下不说，还可能带来莫名的网络问题，是不是太闹心了？尤其是在面对海外专线IP时，到底怎么才能买到适合自己的呢？所以，挑IP绝对是个技…...

编程新知 2026/1/28 3:04:35

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2026/1/25 10:41:07

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化（Gradient Normalization） (2) 判别器梯度间隙正则化（Discriminator Gradient Gap Regularization） (3) 自注意力机制（Self-Attention） 3. 完整损失函数二…...

编程新知 2026/1/31 10:58:46

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2026/1/30 6:20:08

多模态大语言模型arxiv论文略读（110）

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ➡️ 论文标题：CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving ➡️ 论文作者：Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, …...

编程新知 2026/1/28 7:41:14

PostgreSQL 对 IPv6 的支持情况

PostgreSQL 对 IPv6 的支持情况 PostgreSQL 全面支持 IPv6 网络协议，包括连接、存储和操作 IPv6 地址。以下是详细说明： 一、网络连接支持 1. 监听 IPv6 连接在 postgresql.conf 中配置： listen_addresses 0.0.0.0,:: # 监听所有IPv4…...

编程新知 2026/1/19 15:45:19

1. 大文件复制策略

a. 直接使用 cp 命令

b. 使用 rsync

c. 使用 dd 命令

d. 使用 pv 查看进度

2. 大量小文件复制策略

a. 使用 rsync

b. 使用 tar 结合管道复制

c. 使用 cpio

d. 使用 find 结合 xargs 和 cp 多线程复制

e. 使用 parallel 并行复制