HashSet的详细介绍
一、HashSet整体介绍
HashSet 是 Java 中的一个集合类,它实现了 Set 接口,用于存储不重复的元素。它是基于哈希表的数据结构实现的。
HashSet 的特点如下:
- 不允许存储重复的元素:HashSet 中的元素是唯一的,如果尝试将重复的元素添加到 HashSet 中,添加操作将被忽略。
- 无序性:HashSet 中的元素没有固定的顺序,元素的存储和检索顺序是不确定的。
- 允许存储 null 元素:HashSet 允许存储 null 元素,但只能存储一个 null 值。
HashSet 的内部实现是基于哈希表(HashMap)的,它使用哈希函数将元素映射到数组的索引位置。HashSet 的底层数据结构是一个数组,每个数组索引处存储一个链表(或者在 JDK 1.8 之后,当链表长度超过阈值时,会转换为红黑树)。
HashSet 的主要操作包括添加元素、删除元素、判断元素是否存在和遍历元素。添加元素使用 add() 方法,删除元素使用 remove() 方法,判断元素是否存在使用 contains() 方法,遍历元素可以使用迭代器或者增强型 for 循环。
当在 HashSet 中执行添加、删除和判断元素是否存在的操作时,会根据元素的哈希值和相等性进行查找和操作。因此,为了正确使用 HashSet,需要确保存储的元素正确实现了 hashCode() 和 equals() 方法。
HashSet 的性能在大多数操作上都是常数时间复杂度 O(1),但在哈希冲突较多时,链表的遍历或者红黑树的操作可能会导致性能下降,最坏情况下的时间复杂度为 O(n)。
二、HashSet的扩容机制是怎么样的?
需要注意的是,HashSet 是非线程安全的,如果在多个线程中同时访问和修改 HashSet,必须采取额外的同步措施或者使用线程安全的集合类。
当 HashSet 中的元素数量超过数组长度的0.75倍时,就会触发扩容操作。HashSet 的扩容机制是为了在保持性能的同时,尽量减少哈希冲突的发生。
HashSet 的扩容过程包括以下步骤:
- 创建一个新的、更大容量的数组。
- 将旧数组中的元素逐个重新计算哈希值,并根据新数组的长度计算新的索引位置。
- 将元素插入到新数组的对应索引位置上。
- 重复步骤2和步骤3,直到将旧数组中的所有元素都插入到新数组中。
- 将 HashSet 的数组引用指向新的数组。
扩容操作的目的是为了增加数组的容量,从而减少哈希冲突的概率。当数组的容量不足时,即使哈希函数分布良好,也会出现多个元素被映射到同一个数组索引的情况,从而导致链表或树结构的形成,影响查找和插入的效率。
通过扩容操作,HashSet 会创建一个更大的数组,并重新计算每个元素在新数组中的索引。这样,元素在新数组中的分布会更加均匀,减少哈希冲突的发生,提高了查找和插入的性能。
为什么选择0.75作为扩容的触发因子呢?这是一个经验值,经过实践得出的一个平衡点。当数组长度达到容量的0.75倍时,既能够保持较低的哈希冲突率,又能够减少频繁的扩容操作,提高性能。
需要注意的是,扩容操作是一个相对耗时的操作,因为需要重新计算元素的哈希值和重新插入到新数组中。因此,在预知元素数量较大的情况下,可以通过构造函数或者 initialCapacity 参数提前指定初始容量,以减少扩容操作的次数,提高性能。
三、什么是哈希冲突?
哈希冲突指的是不同的元素通过哈希函数计算得到相同的哈希值,从而导致它们在哈希表中被映射到相同的数组索引位置。
在哈希表中,通过哈希函数将元素映射到数组的索引位置。理想情况下,每个元素都应该通过哈希函数计算得到唯一的哈希值,并被映射到不同的数组索引上,这样可以达到快速的查找和插入操作。
然而,在实际情况中,由于哈希函数的计算过程无法避免的会产生冲突。哈希函数的输出空间是有限的,而输入空间是无限的,这就意味着不同的元素可能会产生相同的哈希值。
当不同的元素经过哈希函数计算后得到相同的哈希值时,就会发生哈希冲突。这会导致不同的元素被映射到相同的数组索引位置,形成链表或树结构。在哈希表中查找或插入元素时,就需要在这些冲突的元素中进行进一步的查找或插入操作,从而影响了查找和插入的效率。
为了解决哈希冲突,哈希表中通常采用的方法是使用链表或树来处理冲突的元素。当哈希冲突发生时,将新的元素插入到链表或树的末尾,或者在链表长度超过一定阈值时,将链表转换为红黑树。这样可以提高查找和插入的效率。
然而,当哈希冲突过多时,链表或树的长度会过长,导致性能下降。为了尽量减少哈希冲突的发生,可以通过合理设计哈希函数、增加数组的长度(扩容)等方式来优化哈希表的性能。
四、哈希函数是怎么计算哈希值的?计算出哈希值之后又是怎么映射到数组上的?
哈希函数是将输入的数据转换成哈希值的一种算法。它的目的是将数据尽可能均匀地映射到哈希表的索引位置上,以便实现高效的查找和插入操作。
哈希函数的计算过程通常包括以下几个步骤:
- 将输入的数据(例如字符串、数字等)转换成一个整数或固定长度的字节数组。
- 对这个整数或字节数组进行一系列计算,如位运算、数学运算、异或操作等,以获取一个哈希码。
- 将哈希码映射到哈希表的数组索引位置上,通常使用取模运算(对数组长度取模)来实现。
在映射到数组索引位置时,取模运算可以将哈希码的值限定在哈希表数组的有效范围内,确保映射到正确的索引位置。例如,如果哈希表的数组长度是10,哈希码为25,那么取模运算就会将其映射到索引位置为5的数组上。
需要注意的是,好的哈希函数应该具有以下特点:
- 输出的哈希值应该尽可能均匀地分布在哈希表的索引位置上,以减少哈希冲突的发生。
- 输入相同的数据应该始终得到相同的哈希值,保证查找和插入的正确性。
- 哈希函数的计算应该尽量高效,避免耗费过多的时间和计算资源。
哈希函数的选择会根据具体的应用场景和数据特点来确定。常见的哈希函数包括 MD5、SHA-1、SHA-256 等。在实际应用中,也可以根据数据的特点设计自定义的哈希函数。
相关文章:
HashSet的详细介绍
一、HashSet整体介绍 HashSet 是 Java 中的一个集合类,它实现了 Set 接口,用于存储不重复的元素。它是基于哈希表的数据结构实现的。 HashSet 的特点如下: 不允许存储重复的元素:HashSet 中的元素是唯一的,如果尝试…...
【SCI征稿】JCR1区,中科院2区,有关大数据、人工智能、机器学习的应用研究均可
期刊简介: 【出版社】Elsevier 【影响因子】IF(2022):6.5-7.0 【期刊分区】JCR1区,中科院2区 【检索情况】SCIE 在检,正刊 【参考周期】期刊部系统内提交,预计3-5个月左右录用,…...
【UE】AI导航,多个导航物体无法走到同一终点问题
如不需要开启导航物体的碰撞,则需要关闭Use RVOAvoidance 不然会导致多个导航物体无法到达同一个目标点,都在附近晃。无法结束寻路。 ue小白,判定导航终点的半径,没有找到。如果有大佬知道怎么设置请在评论区指出,谢…...
途游游戏 x 极狐GitLab “通关” DevOps :单元测试从无到优,覆盖率 0→80%
目录 4 个工具孤岛 → 极狐GitLab 全家桶, 被动的「人找进度」 → 高效的「进度找人」 把 Code Review 做扎实 代码质量「向左移」,修复成本「往下降」 从无到「优」 自动执行单元测试,覆盖率 0→80% 你喜欢玩游戏吗? 最近…...
【云原生】Docker-Compose全方面学习
目录 1.compose简介 Compose V2 2.compose安装与下载 二进制包 PIP 安装 bash 补全命令 卸载 3.docker compose管理命令 命令对象与格式 命令选项 命令使用说明 1.compose简介 Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose,您可…...
基于 Redux + TypeScript 实现强类型检查和对 Json 的数据清理
基于 Redux TypeScript 实现强类型检查和对 Json 的数据清理 突然像是打通了任督二脉一样就用了 generics 搞定了之前一直用 any 实现的类型…… 关于 Redux 的部分,这里不多赘述,基本的实现都在这里:Redux Toolkit 调用 API 的四种方式 和…...
HIVE语法优化之Join优化
桶用两表关联字段,MapJoin时需要将小表填入内存,这时候,分桶就起到了作用 一个stage阶段代表一个mr执行,好几个MR,会吧每一个MR的结果都压缩 Mysql 慢查询 如果sql语句执行超过指定时间,定义该sql为慢查询,存储日志, 查问题: SQL日志,模拟慢SQL 然后查询执行计划 分组聚合 就…...
如何申请境内金融信息服务报备
依据《金融信息服务管理规定》等要求,开展境内金融信息服务报备工作事项如下: 一、报备对象及要求 金融信息服务,是指向从事金融分析、金融交易、金融决策或者其他金融活动的用户提供可能影响金融市场的信息和(或者)…...
VS code:Task
Task 微软官方连接: https://code.visualstudio.com/docs/editor/tasks what is Task 我们知道,vscode可以支持许多编程语言,很多语言是需要进行编译的,打包,测试… 有许多已有的工具支持这些流程,例如A…...
《Java-SE-第三十章》之哲学家就餐问题
前言 在你立足处深挖下去,就会有泉水涌出!别管蒙昧者们叫嚷:“下边永远是地狱!” 博客主页:KC老衲爱尼姑的博客主页 博主的github,平常所写代码皆在于此 共勉:talk is cheap, show me the code 作者是爪哇岛的新手,水平很有限&…...
关于接口测试用例设计的一些思考
接口测试发现的典型问题 传入参数处理不当,引起程序错误类型溢出,导致数据读取和写入不一致对象权限校验出错,可获取其他角色信息状态出错,导致逻辑处理出现问题逻辑校验不完善定时任务执行出错 接口测试用例设计 接口测试用例…...
gin和gorm框架安装
理论上只要这两句命令 go get -u gorm.io/gorm go get -u github.com/gin-gonic/gin然而却出现了问题 貌似是代理问题,加上一条命令 go env -w GOPROXYhttps://goproxy.cn,direct 可以成功安装 安装gorm的数据库驱动程序 go get -u gorm.io/driver/mysql...
今天小编继续给大家分享五款高效的电脑宝藏软件
目录 1、keytweak 2、ScreenToGif 3、Greenshot截屏工具 4、GIMP 5、HandBrake 1、keytweak keytweak 简单来说就是一个键盘按键修改器,说白了就是一个键盘按键重映射的软件。比如你键盘上的Q不好用了,你可以更换成一个不常见的按键来代替Q键&#x…...
SQL Server数据库如何添加mysql链接服务器(Windows系统)
SQL Server数据库如何添加mysql链接服务器(Windows系统) 一、说明二、下载mysql的odbc驱动三、安装mysql odbc四、配置ODBC4.1 控制面板→ODBC数据源(64位)→双击打开4.2 添加msql odbc数据源 五、测试添加是否成功六、打开SSMS&a…...
scala连接mysql数据库
scala中通常是通过JDBC组件来连接Mysql。JDBC, 全称为Java DataBase Connectivity standard。 加载依赖 其中包含 JDBC driver <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.29&l…...
datax-web登陆时出现账号密码错误
在查找问题时,在admin里面查看日志时: 目录的位置:datax-web-2.1.2/modules/datax-admin/bin/console.out 发现了java程序没有跑起来,解决对应的bug问题即可,一般都是数据库连接的问题,可能和使用的数据库版…...
Redis 和 MySQL如何保证数据一致性
场景分析 Redis 用来实现应用和数据库之间读操作的缓存层,主要目的是减少数据库 IO ,还可以提升数据的 IO 性能。当应用程序需要去读取某个数据的时候,首先会先尝试去 Redis 里面加载,如果命中就 直接返回。如果没有命中…...
VR虚拟仿真技术在道路桥梁中有哪些具体应用?
虚拟现实(VR)是一种新兴的技术,可以为桥梁工程提供许多应用场景。以下是一些可能的应用场景: 1.桥梁设计和模拟 VR元宇宙可以用于桥梁的设计和模拟。工程师可以使用VR技术来创建桥梁的三维模型,并对其进行测试和优化。这可以帮助工程师更好地…...
如何找到死锁的线程?_java都学什么
在Java中,死锁是指两个或多个线程被无限地阻塞,等待彼此持有的资源,从而导致程序无法继续执行的情况。死锁通常是由于线程之间循环等待资源而产生的。要找到死锁的线程,可以采用以下方法: 1.线程转储(Thread Dump) 通过…...
MFC遍历目录包括子目录下所有文件、特定类型文件
文章目录 用法实现遍历所有文件遍历所有txt文件用法 vector<CString> v; //获取所有文件 GetFilePath(v,L"D:\\test\\"); //文件路径储存在容器里面,遍历容器 for(int i=0...
Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
synchronized 学习
学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...
抖音增长新引擎:品融电商,一站式全案代运营领跑者
抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...
[Java恶补day16] 238.除自身以外数组的乘积
给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...
Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理
引言 Bitmap(位图)是Android应用内存占用的“头号杀手”。一张1080P(1920x1080)的图片以ARGB_8888格式加载时,内存占用高达8MB(192010804字节)。据统计,超过60%的应用OOM崩溃与Bitm…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
JVM虚拟机:内存结构、垃圾回收、性能优化
1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...
20个超级好用的 CSS 动画库
分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...
RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)
RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发,后来由Pivotal Software Inc.(现为VMware子公司)接管。RabbitMQ 是一个开源的消息代理和队列服务器,用 Erlang 语言编写。广泛应用于各种分布…...
