在 Ubuntu 上查看重复文件
一般情况下
1. 使用 fdupes 工具
fdupes 是一个专门用于查找重复文件的工具。
安装:
sudo apt-get install fdupes
使用:
fdupes -r /path/to/directory
-r 选项会递归查找子目录中的重复文件。
2. 使用 rmlint 工具
rmlint 是另一个强大的重复文件查找工具,并且可以生成删除脚本来帮助清理重复文件。
安装:
sudo apt-get install rmlint
使用:
rmlint /path/to/directory
默认情况下,rmlint 会输出报告,但你可以使用 -o 选项来生成删除脚本。
3. 使用 find 和 md5sum 命令组合
如果你喜欢使用命令行,你可以通过结合 find 和 md5sum 命令来查找重复文件。
示例:
find /path/to/directory -type f -exec md5sum {} + | sort | uniq -d --check-chars=32
这个命令会计算所有文件的 MD5 校验和,并找出重复的校验和。
4. 使用图形界面的工具
如果你更喜欢图形用户界面,可以使用工具如 BleachBit 或 dupeGuru 来查找重复文件。
安装 dupeGuru:
sudo add-apt-repository ppa:dupeguru/ppa sudo apt-get update sudo apt-get install dupeguru
启动 dupeGuru: 在应用菜单中找到 dupeGuru 并启动它,按照向导选择目录来扫描重复文件。
多线程处理
如果你希望使用多线程来加速查找重复文件的过程,可以考虑以下工具和命令:
1. rmlint
rmlint 支持多线程。它会自动检测并使用系统的 CPU 核心来加速文件扫描过程。
示例:
rmlint -c sh /path/to/directory
这里的 -c sh 选项会生成一个 shell 脚本以清理重复文件。rmlint 默认会使用多线程来提高性能。
2. fdupes
fdupes 本身不直接支持多线程,但可以通过其他工具来加速。例如,可以将目录分割成多个部分,然后并行运行多个 fdupes 实例:
find /path/to/directory -type d | xargs -I{} -P 4 fdupes -r {}
这里,-P 4 选项指定使用 4 个并行进程来运行 fdupes。
3. find 和 md5sum
你可以使用 GNU Parallel 来并行处理 find 和 md5sum,从而利用多线程来加速查找:
安装 GNU Parallel:
sudo apt-get install parallel
示例:
find /path/to/directory -type f | parallel -j 4 md5sum {} | sort | uniq -d --check-chars=32
这里的 -j 4 选项表示使用 4 个并行线程。
相关文章:
在 Ubuntu 上查看重复文件
一般情况下 1. 使用 fdupes 工具 fdupes 是一个专门用于查找重复文件的工具。 安装: sudo apt-get install fdupes 使用: fdupes -r /path/to/directory -r 选项会递归查找子目录中的重复文件。 2. 使用 rmlint 工具 rmlint 是另一个强大的重复文件查找工具…...
docker容器高效连接 Redis 的方式
在微服务架构中,Redis 是一种常见的高效缓存解决方案,通常用于存储临时数据、会话信息或 token。如何在服务容器中高效、稳定地连接 Redis 是架构设计中的一个重要环节。 这篇博客将以实际项目为例,详细介绍如何配置 Flask 应用中的服务容器…...
手撕Python之生成器、装饰器、异常
1.生成器 生成器的定义方式:在函数中使用yield yield值:将值返回到调用处 我们需要使用next()进行获取yield的返回值 yield的使用以及生成器函数的返回的接收next() def test():yield 1,2,3ttest() print(t) #<generator object test at 0x01B77…...
LabVIEW步进电机控制方式
在LabVIEW中控制步进电机可以通过多种方式实现。每种方法都有其独特的优缺点,适用于不同的应用场合。下面详细介绍几种常见的步进电机控制方式,并进行比较。 1. 开环控制(Open-Loop Control) 特点 通过定期发出脉冲信号来控制步进…...
vllm源码解析(五):LLM模型推理
八 模型推理细节探索 8.1 回顾下step的流程 def step(self) -> List[Union[RequestOutput, EmbeddingRequestOutput]]:# 多GPU并行推理时走AsyncLLMEngine分支。如果进入当前LLMEngine,性能会下降,这里会抛出异常。if self.parallel_config.pipeline_parallel_s…...
数学建模笔记——熵权法(客观赋权法)
数学建模笔记——熵权法[客观赋权法] 熵权法(客观赋权法)1. 基本概念2. 基本步骤3. 典型例题3.1 正向化矩阵3.2 对正向化矩阵进行矩阵标准化3.3 计算概率矩阵P3.4 计算熵权3.5 计算得分 4. python代码实现 熵权法(客观赋权法) 1. 基本概念 熵权法,物理学名词,按照信息论基本原…...
XGBoost算法-确定树的结构
我们在求解上面的w和obj的过程中,都是假定我们的树结构是确定的,因为当我们改变树中划分条件的时候,每个叶子节点对应的样本有可能是不一样的,我们的G和H也是不一样的,得到的最优w和最优obj肯定也是不一样的。 到底哪一…...
concurrentHashMap线程安全实现的原理
1. Segment 数组 ConcurrentHashMap 内部维护一个 Segment 数组,每个 Segment 都是一个小型的 HashMap。Segment 继承自 ReentrantLock,因此每个 Segment 都是一个可重入锁。 2. 并发级别 ConcurrentHashMap 在构造时可以指定并发级别(con…...
域名证书,泛域名证书,sni
文章目录 前言一、证书1.全域名证书2.泛域名证书 二、域名证书的使用1、浏览器请求域名证书流程对全域名证书的请求流程对泛域名证书的请求流程ssl client-hello携带server name 报文 2、浏览器对证书的验证流程 三、域名证书和sni 前言 本文介绍了泛域名证书和全域名证书的区别…...
Pytest夹具autouse参数使用。True表示会自动在测试中使用,而无需显式指定
1. 全局conftest文件日志记录功能 # 当前路径(使用 abspath 方法可通过dos窗口执行) current_path os.path.dirname(os.path.abspath(__file__)) # 上上级目录 ffather_path os.path.abspath(os.path.join(current_path,"../"))LOG_FILE_PATH f{ffather_path}/lo…...
Linux:归档及压缩
tar命令 • tar 集成备份工具 – -c:创建归档 – -x:释放归档 – -f:指定归档文件名称,必须在所有选项的最后 – -z、-j、-J:调用 .gz、.bz2、.xz 格式工具进行处理 – -t:显示归档中的文件清单 – -C:指定…...
jenkins 安装
jenkins安装 jenkins官网 中文网址 安装设置 所有jenkins版本 内存512M以上,10Gb磁盘;安装jdk,需要java8以上下载较新的版本,否则安装插件时可能报错版本过低 # 搜索java yum search java | grep -iE "jdk"# 安装jd…...
mysql学习教程,从入门到精通,MySQL 删除数据库教程(6)
1、MySQL 删除数据库 使用普通用户登陆 MySQL 服务器,你可能需要特定的权限来创建或者删除 MySQL 数据库,所以我们这边使用 root 用户登录,root 用户拥有最高权限。 在删除数据库过程中,务必要十分谨慎,因为在执行删除…...
C语言:刷题日志(2)
一.币值转换 输入一个整数(位数不超过9位)代表一个人民币值(单位为元),请转换成财务要求的大写中文格式。如23108元,转换后变成“贰万叁仟壹百零捌”元。为了简化输出,用小写英文字母a-j顺序代…...
微带结环行器仿真分析+HFSS工程文件
微带结环行器仿真分析HFSS工程文件 工程下载:微带结环行器仿真分析HFSS工程文件 我使用HFSS版本的是HFSS 2024 R2 参考书籍《微波铁氧体器件HFSS设计原理》和视频微带结环行器HFSS仿真 1、环形器简介 环行器是一个有单向传输特性的三端口器件,它表明…...
怎么仿同款小程序的开发制作方法介绍
很多老板想要仿小程序系统,就是想要做个和别人界面功能类似的同款小程序系统,咨询瀚林问该怎么开发制作?本次瀚林就为大家介绍一下仿制同款小程序系统的方法。 1、确认功能需求 想要模仿同款小程序系统,那么首先需要找到自己想要…...
音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现
一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息࿰…...
0.91寸OLED屏幕大小的音频频谱,炫酷
(后文有详细介绍) 频谱扫描: 迷你音频频谱——频率扫描 音乐律动: 迷你音频频谱——频率扫描 迷你音频频谱——音乐2 迷你音频频谱——音乐3 一、简介 音频频谱在最小0.91寸OLED 屏幕上显示,小巧玲珑 二、应用场景 本…...
6. LinkedList与链表
一、ArrayList的缺陷 通过源码知道,ArrayList底层使用数组来存储元素,由于其底层是一段连续空间,当在ArrayList任意位置插入或者删除元素时,就需要将后序元素整体往前或者往后搬移,时间复杂度为O(n),效率比…...
Statcounter Global Stats 提供全球统计数据信息
Statcounter Global Stats 提供全球统计数据信息 1. Statcounter Global Stats2. Mobile & Tablet Android Version Market Share WorldwideReferences Statcounter Global Stats https://gs.statcounter.com/ Statcounter Global Stats are brought to you by Statcounte…...
Goby新版插件深度解析:PbootCMS 3.1.2远程代码执行漏洞检测与利用
1. 这个Goby插件更新不是“打补丁”,而是给红队装了一把新钥匙你有没有遇到过这样的情况:扫出一台PbootCMS站点,版本号赫然写着3.1.2,Goby却只标了个“中危”甚至不报——结果手工验证时,一个POST请求就弹出了shell&am…...
为什么92%的团队部署DeepSeek失败?火山引擎vLLM+Triton加速方案(2024最新生产级验证)
更多请点击: https://codechina.net 第一章:为什么92%的团队部署DeepSeek失败?火山引擎vLLMTriton加速方案(2024最新生产级验证) 92%的团队在部署DeepSeek-R1或DeepSeek-V2时遭遇推理延迟超标、OOM崩溃、吞吐骤降等问…...
毕业设计 深度学习yolo11水果识别系统(源码+论文)
文章目录0 前言1 项目运行效果2 课题背景2.1. 课题背景2.1.1 农业现代化与智能化需求2.1.2 计算机视觉在农业中的应用发展2.1.3 目标检测技术演进2.1.3.1 传统图像处理阶段(2000-2012)2.1.3.2 机器学习阶段(2012-2016)2.1.3.3 深度…...
next.js 开发中的水合(Hydration)问题
Next.js 16.2 React 19 完全规避水合问题开发规范完整指南 一、水合问题的根本原因 水合错误(Hydration Mismatch)发生的唯一根本原因是:服务端渲染生成的 HTML 与客户端首次渲染生成的虚拟 DOM 结构不一致。 React 19 对水合错误的检测更加…...
3小时从零掌握:通达信缠论量化插件终极实战指南 [特殊字符]
3小时从零掌握:通达信缠论量化插件终极实战指南 🚀 【免费下载链接】Indicator 通达信缠论可视化分析插件 项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 通达信缠论量化插件是一款革命性的技术分析工具,专为股票投资者打造…...
微信聊天记录永久保存终极指南:3步实现智能数据管理
微信聊天记录永久保存终极指南:3步实现智能数据管理 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatM…...
DeepSeek训练数据准备实战手册(含GitHub可复现Pipeline):覆盖去重、毒性过滤、领域配比、版权脱敏、质量打分五大核心模块
更多请点击: https://kaifayun.com 第一章:DeepSeek训练数据准备概述 DeepSeek系列大语言模型的训练质量高度依赖于原始数据的规模、多样性与清洗精度。数据准备并非简单拼接语料,而是一个涵盖采集、去重、过滤、格式标准化与安全对齐的系统…...
随机微分方程与网络扩散模型:模拟阿尔茨海默病病理传播的不确定性
1. 项目概述:当数学遇见大脑,为阿尔茨海默病建模作为一名长期在计算神经科学与生物统计交叉领域摸爬滚打的研究者,我常常思考一个问题:我们如何用冷冰冰的数学方程,去刻画像阿尔茨海默病(AD)这样…...
2000-2025年地市级数字技术创新水平
数字技术创新水平是衡量地级及以上城市在政府工作报告中系统提及数字技术相关词汇密度的综合指标,用以反映该地区数字技术创新活动的活跃程度与发展态势。本数据集基于全国地级及以上城市的政府工作报告文本构建,覆盖各年度、各城市的官方政策表述。核心…...
因果推断中倾向得分校准:提升双稳健机器学习估计精度的关键
1. 项目概述:当因果推断遇上“不准”的机器学习在观察性研究中做因果推断,就像在迷雾中寻找一条真实的路径。我们手头有大量的数据(协变量X)、处理状态(D,比如是否参加了某个培训项目)和结果&am…...
