HashSet的详细介绍
一、HashSet整体介绍
HashSet 是 Java 中的一个集合类,它实现了 Set 接口,用于存储不重复的元素。它是基于哈希表的数据结构实现的。
HashSet 的特点如下:
- 不允许存储重复的元素:HashSet 中的元素是唯一的,如果尝试将重复的元素添加到 HashSet 中,添加操作将被忽略。
- 无序性:HashSet 中的元素没有固定的顺序,元素的存储和检索顺序是不确定的。
- 允许存储 null 元素:HashSet 允许存储 null 元素,但只能存储一个 null 值。
HashSet 的内部实现是基于哈希表(HashMap)的,它使用哈希函数将元素映射到数组的索引位置。HashSet 的底层数据结构是一个数组,每个数组索引处存储一个链表(或者在 JDK 1.8 之后,当链表长度超过阈值时,会转换为红黑树)。
HashSet 的主要操作包括添加元素、删除元素、判断元素是否存在和遍历元素。添加元素使用 add() 方法,删除元素使用 remove() 方法,判断元素是否存在使用 contains() 方法,遍历元素可以使用迭代器或者增强型 for 循环。
当在 HashSet 中执行添加、删除和判断元素是否存在的操作时,会根据元素的哈希值和相等性进行查找和操作。因此,为了正确使用 HashSet,需要确保存储的元素正确实现了 hashCode() 和 equals() 方法。
HashSet 的性能在大多数操作上都是常数时间复杂度 O(1),但在哈希冲突较多时,链表的遍历或者红黑树的操作可能会导致性能下降,最坏情况下的时间复杂度为 O(n)。
二、HashSet的扩容机制是怎么样的?
需要注意的是,HashSet 是非线程安全的,如果在多个线程中同时访问和修改 HashSet,必须采取额外的同步措施或者使用线程安全的集合类。
当 HashSet 中的元素数量超过数组长度的0.75倍时,就会触发扩容操作。HashSet 的扩容机制是为了在保持性能的同时,尽量减少哈希冲突的发生。
HashSet 的扩容过程包括以下步骤:
- 创建一个新的、更大容量的数组。
- 将旧数组中的元素逐个重新计算哈希值,并根据新数组的长度计算新的索引位置。
- 将元素插入到新数组的对应索引位置上。
- 重复步骤2和步骤3,直到将旧数组中的所有元素都插入到新数组中。
- 将 HashSet 的数组引用指向新的数组。
扩容操作的目的是为了增加数组的容量,从而减少哈希冲突的概率。当数组的容量不足时,即使哈希函数分布良好,也会出现多个元素被映射到同一个数组索引的情况,从而导致链表或树结构的形成,影响查找和插入的效率。
通过扩容操作,HashSet 会创建一个更大的数组,并重新计算每个元素在新数组中的索引。这样,元素在新数组中的分布会更加均匀,减少哈希冲突的发生,提高了查找和插入的性能。
为什么选择0.75作为扩容的触发因子呢?这是一个经验值,经过实践得出的一个平衡点。当数组长度达到容量的0.75倍时,既能够保持较低的哈希冲突率,又能够减少频繁的扩容操作,提高性能。
需要注意的是,扩容操作是一个相对耗时的操作,因为需要重新计算元素的哈希值和重新插入到新数组中。因此,在预知元素数量较大的情况下,可以通过构造函数或者 initialCapacity 参数提前指定初始容量,以减少扩容操作的次数,提高性能。
三、什么是哈希冲突?
哈希冲突指的是不同的元素通过哈希函数计算得到相同的哈希值,从而导致它们在哈希表中被映射到相同的数组索引位置。
在哈希表中,通过哈希函数将元素映射到数组的索引位置。理想情况下,每个元素都应该通过哈希函数计算得到唯一的哈希值,并被映射到不同的数组索引上,这样可以达到快速的查找和插入操作。
然而,在实际情况中,由于哈希函数的计算过程无法避免的会产生冲突。哈希函数的输出空间是有限的,而输入空间是无限的,这就意味着不同的元素可能会产生相同的哈希值。
当不同的元素经过哈希函数计算后得到相同的哈希值时,就会发生哈希冲突。这会导致不同的元素被映射到相同的数组索引位置,形成链表或树结构。在哈希表中查找或插入元素时,就需要在这些冲突的元素中进行进一步的查找或插入操作,从而影响了查找和插入的效率。
为了解决哈希冲突,哈希表中通常采用的方法是使用链表或树来处理冲突的元素。当哈希冲突发生时,将新的元素插入到链表或树的末尾,或者在链表长度超过一定阈值时,将链表转换为红黑树。这样可以提高查找和插入的效率。
然而,当哈希冲突过多时,链表或树的长度会过长,导致性能下降。为了尽量减少哈希冲突的发生,可以通过合理设计哈希函数、增加数组的长度(扩容)等方式来优化哈希表的性能。
四、哈希函数是怎么计算哈希值的?计算出哈希值之后又是怎么映射到数组上的?
哈希函数是将输入的数据转换成哈希值的一种算法。它的目的是将数据尽可能均匀地映射到哈希表的索引位置上,以便实现高效的查找和插入操作。
哈希函数的计算过程通常包括以下几个步骤:
- 将输入的数据(例如字符串、数字等)转换成一个整数或固定长度的字节数组。
- 对这个整数或字节数组进行一系列计算,如位运算、数学运算、异或操作等,以获取一个哈希码。
- 将哈希码映射到哈希表的数组索引位置上,通常使用取模运算(对数组长度取模)来实现。
在映射到数组索引位置时,取模运算可以将哈希码的值限定在哈希表数组的有效范围内,确保映射到正确的索引位置。例如,如果哈希表的数组长度是10,哈希码为25,那么取模运算就会将其映射到索引位置为5的数组上。
需要注意的是,好的哈希函数应该具有以下特点:
- 输出的哈希值应该尽可能均匀地分布在哈希表的索引位置上,以减少哈希冲突的发生。
- 输入相同的数据应该始终得到相同的哈希值,保证查找和插入的正确性。
- 哈希函数的计算应该尽量高效,避免耗费过多的时间和计算资源。
哈希函数的选择会根据具体的应用场景和数据特点来确定。常见的哈希函数包括 MD5、SHA-1、SHA-256 等。在实际应用中,也可以根据数据的特点设计自定义的哈希函数。
相关文章:
HashSet的详细介绍
一、HashSet整体介绍 HashSet 是 Java 中的一个集合类,它实现了 Set 接口,用于存储不重复的元素。它是基于哈希表的数据结构实现的。 HashSet 的特点如下: 不允许存储重复的元素:HashSet 中的元素是唯一的,如果尝试…...
【SCI征稿】JCR1区,中科院2区,有关大数据、人工智能、机器学习的应用研究均可
期刊简介: 【出版社】Elsevier 【影响因子】IF(2022):6.5-7.0 【期刊分区】JCR1区,中科院2区 【检索情况】SCIE 在检,正刊 【参考周期】期刊部系统内提交,预计3-5个月左右录用,…...
【UE】AI导航,多个导航物体无法走到同一终点问题
如不需要开启导航物体的碰撞,则需要关闭Use RVOAvoidance 不然会导致多个导航物体无法到达同一个目标点,都在附近晃。无法结束寻路。 ue小白,判定导航终点的半径,没有找到。如果有大佬知道怎么设置请在评论区指出,谢…...
途游游戏 x 极狐GitLab “通关” DevOps :单元测试从无到优,覆盖率 0→80%
目录 4 个工具孤岛 → 极狐GitLab 全家桶, 被动的「人找进度」 → 高效的「进度找人」 把 Code Review 做扎实 代码质量「向左移」,修复成本「往下降」 从无到「优」 自动执行单元测试,覆盖率 0→80% 你喜欢玩游戏吗? 最近…...
【云原生】Docker-Compose全方面学习
目录 1.compose简介 Compose V2 2.compose安装与下载 二进制包 PIP 安装 bash 补全命令 卸载 3.docker compose管理命令 命令对象与格式 命令选项 命令使用说明 1.compose简介 Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可…...
基于 Redux + TypeScript 实现强类型检查和对 Json 的数据清理
基于 Redux TypeScript 实现强类型检查和对 Json 的数据清理 突然像是打通了任督二脉一样就用了 generics 搞定了之前一直用 any 实现的类型…… 关于 Redux 的部分,这里不多赘述,基本的实现都在这里:Redux Toolkit 调用 API 的四种方式 和…...
HIVE语法优化之Join优化
桶用两表关联字段,MapJoin时需要将小表填入内存,这时候,分桶就起到了作用 一个stage阶段代表一个mr执行,好几个MR,会吧每一个MR的结果都压缩 Mysql 慢查询 如果sql语句执行超过指定时间,定义该sql为慢查询,存储日志, 查问题: SQL日志,模拟慢SQL 然后查询执行计划 分组聚合 就…...
如何申请境内金融信息服务报备
依据《金融信息服务管理规定》等要求,开展境内金融信息服务报备工作事项如下: 一、报备对象及要求 金融信息服务,是指向从事金融分析、金融交易、金融决策或者其他金融活动的用户提供可能影响金融市场的信息和(或者)…...
VS code:Task
Task 微软官方连接: https://code.visualstudio.com/docs/editor/tasks what is Task 我们知道,vscode可以支持许多编程语言,很多语言是需要进行编译的,打包,测试… 有许多已有的工具支持这些流程,例如A…...
《Java-SE-第三十章》之哲学家就餐问题
前言 在你立足处深挖下去,就会有泉水涌出!别管蒙昧者们叫嚷:“下边永远是地狱!” 博客主页:KC老衲爱尼姑的博客主页 博主的github,平常所写代码皆在于此 共勉:talk is cheap, show me the code 作者是爪哇岛的新手,水平很有限&…...
关于接口测试用例设计的一些思考
接口测试发现的典型问题 传入参数处理不当,引起程序错误类型溢出,导致数据读取和写入不一致对象权限校验出错,可获取其他角色信息状态出错,导致逻辑处理出现问题逻辑校验不完善定时任务执行出错 接口测试用例设计 接口测试用例…...
gin和gorm框架安装
理论上只要这两句命令 go get -u gorm.io/gorm go get -u github.com/gin-gonic/gin然而却出现了问题 貌似是代理问题,加上一条命令 go env -w GOPROXYhttps://goproxy.cn,direct 可以成功安装 安装gorm的数据库驱动程序 go get -u gorm.io/driver/mysql...
今天小编继续给大家分享五款高效的电脑宝藏软件
目录 1、keytweak 2、ScreenToGif 3、Greenshot截屏工具 4、GIMP 5、HandBrake 1、keytweak keytweak 简单来说就是一个键盘按键修改器,说白了就是一个键盘按键重映射的软件。比如你键盘上的Q不好用了,你可以更换成一个不常见的按键来代替Q键&#x…...
SQL Server数据库如何添加mysql链接服务器(Windows系统)
SQL Server数据库如何添加mysql链接服务器(Windows系统) 一、说明二、下载mysql的odbc驱动三、安装mysql odbc四、配置ODBC4.1 控制面板→ODBC数据源(64位)→双击打开4.2 添加msql odbc数据源 五、测试添加是否成功六、打开SSMS&a…...
scala连接mysql数据库
scala中通常是通过JDBC组件来连接Mysql。JDBC, 全称为Java DataBase Connectivity standard。 加载依赖 其中包含 JDBC driver <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.29&l…...
datax-web登陆时出现账号密码错误
在查找问题时,在admin里面查看日志时: 目录的位置:datax-web-2.1.2/modules/datax-admin/bin/console.out 发现了java程序没有跑起来,解决对应的bug问题即可,一般都是数据库连接的问题,可能和使用的数据库版…...
Redis 和 MySQL如何保证数据一致性
场景分析 Redis 用来实现应用和数据库之间读操作的缓存层,主要目的是减少数据库 IO ,还可以提升数据的 IO 性能。当应用程序需要去读取某个数据的时候,首先会先尝试去 Redis 里面加载,如果命中就 直接返回。如果没有命中…...
VR虚拟仿真技术在道路桥梁中有哪些具体应用?
虚拟现实(VR)是一种新兴的技术,可以为桥梁工程提供许多应用场景。以下是一些可能的应用场景: 1.桥梁设计和模拟 VR元宇宙可以用于桥梁的设计和模拟。工程师可以使用VR技术来创建桥梁的三维模型,并对其进行测试和优化。这可以帮助工程师更好地…...
如何找到死锁的线程?_java都学什么
在Java中,死锁是指两个或多个线程被无限地阻塞,等待彼此持有的资源,从而导致程序无法继续执行的情况。死锁通常是由于线程之间循环等待资源而产生的。要找到死锁的线程,可以采用以下方法: 1.线程转储(Thread Dump) 通过…...
MFC遍历目录包括子目录下所有文件、特定类型文件
文章目录 用法实现遍历所有文件遍历所有txt文件用法 vector<CString> v; //获取所有文件 GetFilePath(v,L"D:\\test\\"); //文件路径储存在容器里面,遍历容器 for(int i=0...
2026.04.02随记
1、DL1、反向传播(backward propagation):是计算网络参数梯度的方法,用链式法则,从输出层到输入层遍历,算出每个参数该怎么改。反向传播中每一个记录的梯度都是该函数的导数。梯度下降不等于反向传播&#…...
数据分析中的异常值处理:MAD
在数据处理(尤其是金融、生物统计、信号处理等)中,极值(异常值) 会严重影响均值、方差、相关系数等统计量的估计,并扭曲模型训练。MAD法(Median Absolute Deviation,绝对中位差法&am…...
如何通过社交媒体来提升网站的 SEO 表现
如何通过社交媒体来提升网站的 SEO 表现 在当今互联网时代,社交媒体已经成为了人们获取信息、交流互动的重要平台。越来越多的企业和个人发现,社交媒体不仅仅是一个交流工具,它还能为网站带来巨大的 SEO 价值。本文将探讨如何通过社交媒体来…...
AI 术语通俗词典:置信度
置信度是统计学、机器学习、人工智能和信息检索中非常常见的一个术语。它通常用来描述一个模型、系统或方法对自己输出结果“有多确定”的程度。换句话说,置信度是在回答:这个结果看起来有多像是对的。如果说预测结果回答的是“模型给出的答案是什么”&a…...
保姆级教程:为嵌入式Linux(ARM/AArch64)交叉编译带完整符号支持的Perf工具
ARM架构嵌入式Linux系统性能调优实战:Perf工具深度定制指南 在嵌入式系统开发中,性能优化往往是最具挑战性的环节之一。当你的应用在ARM或AArch64架构的嵌入式设备上运行时出现卡顿、延迟或资源耗尽,传统的打印调试和日志分析往往难以定位深…...
解锁3大模组维度:从入门到精通的进阶之路
解锁3大模组维度:从入门到精通的进阶之路 【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire ModTheSpire作为《杀戮尖塔》最强大的外部模组加载器,为玩家提供了无需…...
STM32主控的三相逆变器及单相/三相逆变程序实现
三相逆变 单相/三相逆变器 SPWM ---stm32主控(输入、输出具体可根据需要设定),本逆变器可以二次开发。 本内容只包括 逆变程序,实现变频(0~100Hz)、变压调节,均有外接按键控制(使用C…...
YOLO系列算法改进 | C2PSA改进篇 | 融合CAFR跨光谱注意力特征细化模块 | 以极低计算代价增强多光谱特征判别性,突破复杂光照与小目标检测瓶颈 | AAAI 2026
0. 前言 本文介绍CAFR(Cross-spectral Attention Feature Refinement)跨光谱注意力特征细化模块,并将其集成到ultralytics最新发布的YOLO26目标检测算法中,构建C2PSA_CAFR创新模块。CAFR是一种基于跨光谱交叉注意力的轻量级特征细化机制,通过显式的对象感知线索引导多光谱…...
如何快速安装和配置Pop Shell:面向初学者的完整教程
如何快速安装和配置Pop Shell:面向初学者的完整教程 【免费下载链接】shell Pop!_OS Shell 项目地址: https://gitcode.com/gh_mirrors/sh/shell Pop Shell是一款功能强大的窗口管理扩展,专为提升Linux桌面操作效率设计。本教程将带您逐步完成Pop…...
微前端架构中awesome-micro-npm-packages的终极应用指南:模块化开发的未来趋势
微前端架构中awesome-micro-npm-packages的终极应用指南:模块化开发的未来趋势 【免费下载链接】awesome-micro-npm-packages A curated list of small, focused npm packages. 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-micro-npm-packages awe…...
