Java集合List快速实现重复判断的10种方法深度解析
文章目录
- 引言:为什么需要关注List重复判断?
- 一、基础实现方法
- 1.1 暴力双循环法
- 1.2 HashSet法
- 二、进阶实现方案
- 2.1 Stream API实现
- 2.2 TreeSet排序法
- 三、高性能优化方案
- 3.1 并行流处理
- 3.2 BitSet位图法(仅限整数)
- 四、第三方库实现
- 4.1 Guava工具类
- 4.2 Apache Commons
- 五、性能测试对比
- 5.1 测试环境配置
- 5.2 百万级数据测试结果
- 六、最佳实践指南
- 6.1 选择依据矩阵
- 6.2 避坑指南
- 七、特殊场景处理
- 7.1 自定义对象多字段判重
- 7.2 大数据量分块处理
- 结语:高效去重的本质
引言:为什么需要关注List重复判断?
在Java开发中,List集合的重复判断是高频操作场景。不当的实现方式可能导致O(n²)时间复杂度,在百万级数据时产生分钟级延迟。本文通过10种实现方案对比,揭示不同场景下的最优选择。
一、基础实现方法
1.1 暴力双循环法
public static boolean hasDuplicate(List<?> list) {for (int i = 0; i < list.size(); i++) {for (int j = i + 1; j < list.size(); j++) {if (list.get(i).equals(list.get(j))) {return true;}}}return false;
}
复杂度分析:
- 时间复杂度:O(n²)
- 空间复杂度:O(1)
1.2 HashSet法
public static boolean hasDuplicateByHashSet(List<?> list) {Set<Object> set = new HashSet<>(list.size());for (Object item : list) {if (!set.add(item)) { // add返回false表示存在重复return true;}}return false;
}
优化点:
- 初始容量设置为list.size()避免扩容
- 快速失败机制
二、进阶实现方案
2.1 Stream API实现
public static boolean hasDuplicateByStream(List<?> list) {return list.stream().distinct().count() < list.size();
}
特性:
- 代码简洁
- 支持并行处理
2.2 TreeSet排序法
public static boolean hasDuplicateByTreeSet(List<?> list) {Set<Object> set = new TreeSet<>(list);return set.size() < list.size();
}
适用场景:
- 需要自然排序结果
- 元素实现Comparable接口
三、高性能优化方案
3.1 并行流处理
public static boolean hasDuplicateParallel(List<?> list) {Set<Object> seen = ConcurrentHashMap.newKeySet();return list.parallelStream().anyMatch(e -> !seen.add(e));
}
优势:
- 利用多核CPU加速
- 线程安全的并发集合
3.2 BitSet位图法(仅限整数)
public static boolean hasDuplicateByBitSet(List<Integer> list) {BitSet bitSet = new BitSet();for (Integer num : list) {if (bitSet.get(num)) return true;bitSet.set(num);}return false;
}
限制:
- 仅适用于正整数
- 内存占用与最大数值相关
四、第三方库实现
4.1 Guava工具类
import com.google.common.collect.Sets;public static boolean hasDuplicateByGuava(List<?> list) {return Sets.newHashSet(list).size() < list.size();
}
4.2 Apache Commons
import org.apache.commons.collections4.CollectionUtils;public static boolean hasDuplicateByCommons(List<?> list) {return CollectionUtils.getCardinalityMap(list).values().stream().anyMatch(count -> count > 1);
}
五、性能测试对比
5.1 测试环境配置
| 硬件 | 规格 |
|---|---|
| CPU | Intel i7-12700H |
| 内存 | 32GB DDR5 |
| JDK | Oracle JDK 17.0.2 |
5.2 百万级数据测试结果
| 方法 | 10万元素(ms) | 100万元素(ms) | 线程安全 |
|---|---|---|---|
| 暴力双循环 | 12,345 | 超时(>5min) | 是 |
| HashSet | 18 | 210 | 否 |
| Stream | 25 | 320 | 否 |
| 并行流 | 15 | 95 | 是 |
| BitSet | 8 | 45 | 否 |
六、最佳实践指南
6.1 选择依据矩阵
6.2 避坑指南
- 对象必须正确重写equals/hashCode
class User {private Long id;@Overridepublic boolean equals(Object o) {if (this == o) return true;if (!(o instanceof User user)) return false;return Objects.equals(id, user.id);}@Overridepublic int hashCode() {return Objects.hash(id);}
}
- 并发场景使用线程安全容器
Set<Object> safeSet = Collections.synchronizedSet(new HashSet<>());
- 避免在Stream中使用有状态操作
// 错误示例:并行流中可能导致漏判
list.parallelStream().forEach(e -> {if (set.contains(e)) flag = true;set.add(e);
});
七、特殊场景处理
7.1 自定义对象多字段判重
public static boolean hasDuplicateByMultiField(List<User> users) {Set<String> seen = new HashSet<>();return users.stream().map(u -> u.getName() + "|" + u.getEmail()).anyMatch(key -> !seen.add(key));
}
7.2 大数据量分块处理
public static boolean hasDuplicateInChunks(List<?> list, int chunkSize) {for (int i = 0; i < list.size(); i += chunkSize) {List<?> subList = list.subList(i, Math.min(i + chunkSize, list.size()));if (hasDuplicateByHashSet(subList)) {return true;}}return false;
}
结语:高效去重的本质
选择最优重复判断方法的核心在于理解数据结构特性与业务场景需求的匹配。通过本文的测试数据可知,合理选择算法可以将百万级数据的判断时间从分钟级压缩到毫秒级。
相关文章:
Java集合List快速实现重复判断的10种方法深度解析
文章目录 引言:为什么需要关注List重复判断?一、基础实现方法1.1 暴力双循环法1.2 HashSet法 二、进阶实现方案2.1 Stream API实现2.2 TreeSet排序法 三、高性能优化方案3.1 并行流处理3.2 BitSet位图法(仅限整数) 四、第三方库实…...
List的模拟实现(2)
前言 上一节我们讲解了list的基本功能,那么本节我们就结合底层代码来分析list是怎么实现的,那么废话不多说,我们正式进入今天的学习:) List的底层结构 我们先来看一下list的底层基本结构: 这里比较奇怪的…...
如何使用SaltStack批量替换SSL证书方案
以下是借助 SaltStack 批量替换 SSL 证书的完整方案,该方案结合了自动化更新与回滚机制,以保障操作的高效性与安全性: 一、准备工作 目录结构搭建 在 Salt Master 的 /home/salt/ssl_update 目录下构建如下结构:ssl_update/ ├──…...
Golang快速上手01/Golang基础
最近有需求,需要使用go,这几天快速过一遍基础语法,这是今天的总结 项目结构 #mermaid-svg-qpF09pnIik9bqQ4E {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-qpF09pnIik9bqQ4E .e…...
[Web 安全] 反序列化漏洞 - 学习笔记
关注这个专栏的其他相关笔记:[Web 安全] Web 安全攻防 - 学习手册-CSDN博客 0x01:反序列化漏洞 — 漏洞介绍 反序列化漏洞是一种常见的安全漏洞,主要出现在应用程序将 序列化数据 重新转换为对象(即反序列化)的过程中…...
【学习笔记】Google的Lyra项目:基于神经网络的超低比特率语音编解码技术
一、引言:语音通信的带宽挑战与技术突破 在实时音视频通信占据全球数字化生活核心地位的今天,Google于2021年推出的Lyra编解码器标志着语音编码技术进入新的时代。这款基于机器学习的新型音频编解码器以3kbps的极低比特率实现接近原始音质的语音重建能力…...
Unity Dedicated Server 控制台 输出日志LOg 中文 乱码
现象: 中文乱码 原因: Unity打包出来的.exe文件,语言一栏是英文,VS控制台出来不一样 解决方案: 新建.bat文件 ,并使用命令chcp 65001,运行时启动.bat,而不是.exe, 改不了exe属性,虽然有点奇怪ÿ…...
【Excel】 Power Query抓取多页数据导入到Excel
抓取多页数据想必大多数人都会,只要会点编程技项的人都不会是难事儿。那么,如果只是单纯的利用Excel软件,我还真的没弄过。昨天,我就因为这个在网上找了好久发好久。 1、在数据-》新建查询-》从其他源-》自网站 ,如图 …...
去耦电容的作用详解
在霍尔元件的实际应用过程中,经常会用到去耦电容。去耦电容是电路中装设在元件的电源端的电容,其作用详解如下: 一、基本概念 去耦电容,也称退耦电容,是把输出信号的干扰作为滤除对象。它通常安装在集成电路…...
HTTPS 与 HTTP 的区别在哪?
HTTP与HTTPS作为互联网数据传输的核心协议,其通信机制与安全特性深刻影响着现代网络应用的可靠性与用户体验。本文将解析两者的通信流程、安全机制及核心差异。 一、HTTP的通信机制 先来看看HTTP是什么吧。 HTTP基于TCP/IP协议栈,采用经典客户端-服务…...
let、const【ES6】
“我唯一知道的就是我一无所知。” - 苏格拉底 目录 块级作用域:var、let、const的对比:Object.freeze(): 块级作用域: 块级作用域指由 {} 包围的代码块(如 if、for、while、单独代码块等)形成的独立作用…...
openharmony5.0中hdf框架中实现驱动程序的动态加载和管理的技术细节分析
在分析openharmony的hdf框架的设备驱动加载器(IDriverLoader)时发现在创建实例时会首先判断一下是否完成了驱动入口的构建(HdfDriverEntryConstruct),如果没有构建会重新构建,这与我开始以为的不一致(我一直以为是采用的linux内核方式,只是由…...
TVS管学习记录
文章目录 前言一、TVS是什么?二、TVS关键参数1.反向截至电压**实际意义** 2.钳位电压**定义与作用****选择依据** **4. 实际应用示例****场景:通信端口的ESD保护** 3.反向截至电压和钳位电压的关联和区别**. 小结** 三、实际应用电路举例总结 前言 TVS管…...
数据库表的各种设计
本篇文章,主要讲解项目开发时,遇到不同的情况,要学会对数据库的表进行合理设计。 1、将表的某个字段,存到一张新表中 ①情况描述 ②操作步骤 第一步:创建role表 第二步:在user表中,删除role字…...
JWT使用教程
目录 JWT (JSON Web Token)1. JWT简介(1) 什么是JWT(2) JWT有什么用(3) JWT认证方式 2. JWT的组成部分3. 签名的目的4. JWT与Token的区别5 JWT的优势6 JJWT签发与验证token(1) 引入依赖(2) 创建 Token(3) 解析Token(4) 设置过期时间(5) 自定义claims 7. JWT自定义工具类 JWT (J…...
【大模型系列篇】如何解决DeepSeek-R1结构化输出问题,使用PydanticAl和DeepSeek构建结构化Agent
今日号外:🔥🔥🔥 DeepSeek开源周:炸场!DeepSeek开源FlashMLA,提升GPU效率 下面我们开始今天的主题,deepseek官方明确表示deepseek-r1目前不支持json输出/function call,可…...
老旧android项目编译指南(持续更)
原因 编译了很多项目,找到了一些可观的解决办法 1. android studio里面的jdk版本切换 jdk版本切换在这里,一般安卓开发需要用到4个版本的jdk,jdk8, jdk11, jdk17, jdk21新版的android stuio是默认使用高版本的jdk,所以切换版本是很有必要的 2. 命令…...
linux中安装部署Jenkins,成功构建springboot项目详细教程
参考别人配置Jenkins的git地址为https,无法连上github拉取项目,所以本章节介绍通过配置SSH地址来连github拉取项目 目录: 1、springboot项目 1.1 创建名为springcloudproject的springboot项目工程 1.2 已将工程上传到github中,g…...
AI开发利器:Anaconda
在Python开发过程中,不同的项目可能会依赖不同版本的Python以及各种不同版本的库。比如,项目A可能依赖Python 3.8和某个特定版本的numpy、TensorFlow和PyTorch,而项目B可能需要Python 3.9以及另一个版本的numpy库。如果直接在系统中安装Pytho…...
java网络编程--基于TCP协议的网络编程
Scoket介绍 利用 TCP 协议进行通信的两个应用程序是有主次之分的, 一个是服务器程序,一个是客户端程序, 两者的功能和编写方法不太一样, 其中 ServerSocket 类表示 Socket 服务器端,Socket 类表示 Socket 客户端。 服…...
SSE 基础知识
SSE 基础知识 一、概念定义 SSE 全称 Server-Sent Events,是基于HTTP协议的服务器单向数据推送技术。 建立一次长连接后,服务端可主动持续向前端推送数据,无需客户端反复轮询请求。 二、核心特点 单向通信:仅服务器 → 客户端发送…...
基于ESP32的AIS转WiFi转换器:实现NMEA 0183数据无线传输
1. 项目概述:从VHF-AIS接收器到iPad的无线桥梁作为一名经常在海上折腾电子设备的航海爱好者,我最近遇到了一个挺实际的需求:我的主力导航设备是iPad上的iSailor应用,它功能强大、界面友好,但有个“硬伤”——它需要通过…...
Burp Suite证书安装全解:HTTPS抓包失败的根源与跨平台命令行方案
1. 为什么必须亲手安装Burp Suite证书——不是“点一下就完事”的操作很多人第一次在手机或测试设备上配置Burp Suite代理时,会下意识认为:只要把电脑上的Burp监听地址填进Wi-Fi代理设置,再用浏览器访问http://burp,点击那个绿色的…...
1901-2022年中国气温变化分析实战:用这份1km栅格数据我们能发现什么?
1901-2022年中国气温变化分析实战:如何从1km栅格数据中挖掘气候演变规律当一份覆盖122年、分辨率精确到1公里的气温栅格数据摆在面前时,我们看到的不仅是数字矩阵,更是一部写在经纬度坐标里的气候变迁史诗。这份由逐月数据聚合生成的逐年气温…...
2026年一键生成论文工具对比实测:5款神器从选题到格式全流程护航
写论文的焦虑,是每个科研人和学生都心照不宣的“隐形压力”。选题无从下手,文献检索耗时费力,逻辑框架反复推翻,格式排版让人抓狂,查重降重更是像在和系统玩“猫鼠游戏”。2026年的AI工具早已不是过去那种“打字机”&a…...
2026 文章代码高亮方案选型
将基于 Prism.js 或 Highlight.js 的传统高亮方案与基于 Shiki 的现代化高亮方案进行对比,其核心区别在于底层解析原理的不同(正则表达式 vs. TextMate 语法树)。 以下是两种方案的底层原理、各自优缺点、核心对比矩阵以及适用场景的详细分析…...
DeepSeek重复代码识别失效了?5个被90%团队忽略的AST解析盲区及修复清单
更多请点击: https://codechina.net 第一章:DeepSeek代码重复检测失效的真相与影响 DeepSeek-R1 模型在代码理解任务中表现出色,但其内置的代码重复检测机制在特定场景下存在系统性失效。根本原因在于模型对语义等价但语法结构差异显著的代…...
通用物联网开发板设计:基于ESP8266的硬件集成与开发实践
1. 项目概述:为什么我们需要一块“通用”的物联网开发板?在捣鼓了几年物联网项目之后,我发现自己桌面上堆满了各种开发板:ESP8266、ESP32、Arduino Uno、STM32 Nucleo……每个项目都要重新连线、配置电源、焊接传感器接口…...
如何深度定制索尼相机:Sony-PMCA-RE逆向工程工具完整指南
如何深度定制索尼相机:Sony-PMCA-RE逆向工程工具完整指南 【免费下载链接】Sony-PMCA-RE Reverse Engineering Sony Digital Cameras 项目地址: https://gitcode.com/gh_mirrors/so/Sony-PMCA-RE 索尼相机逆向工程工具Sony-PMCA-RE是一款专业的开源工具&…...
Metabase:零代码 BI 数据可视化工具,自建数据看板
Metabase:零代码 BI 数据可视化工具,自建数据看板 在数据驱动决策的时代,能快速看到业务数据的变化趋势至关重要。然而,专业 BI 工具(如 Tableau、Power BI)价格昂贵,而让每个业务同学都学 SQL …...
