当前位置：首页 > news >正文

三、集合原理-3.2、HashMap（下）

news 2026/5/28 7:01:39

3.2、HashMap（下）

3.2.2、单线程下的HashMap的工作原理(底层逻辑)是什么？

答：
HashMap的源码位于Java的标准库中，你可以在java.util包中找到它。

以下是HashMap的简化源码示例，用于说明其实现逻辑：
public class HashMap<K, V> {private Entry<K, V>[] table;private static final int DEFAULT_CAPACITY = 16;private int size;public HashMap() {table = new Entry[DEFAULT_CAPACITY];size = 0;}public void put(K key, V value) {int index = getIndex(key); //获取键的哈希值Entry<K, V> newEntry = new Entry<>(key, value);if (table[index] == null) {table[index] = newEntry;} else {Entry<K, V> entry = table[index];while (entry.next != null) {if (entry.key.equals(key)) {entry.value = value;return;}entry = entry.next;}entry.next = newEntry;}size++;}public V get(K key) {int index = getIndex(key);if (table[index] != null) {Entry<K, V> entry = table[index];while (entry != null) {if (entry.key.equals(key)) {return entry.value;}entry = entry.next;}}return null;}private int getIndex(K key) {return key.hashCode() % table.length;}private static class Entry<K, V> {private K key;private V value;private Entry<K, V> next;public Entry(K key, V value) {this.key = key;this.value = value;this.next = null;}}
}
上面的示例中，HashMap使用一个`Entry`数组`table`来存储键值对。
每个`Entry`对象包含了键值对的信息，以及一个`next`指针，用于解决哈希冲突的链表。在`put`方法中，首先根据键的哈希值计算出数组中的索引位置，然后判断该位置是否已经有元素存在。
如果该位置为空，直接存储新的`Entry`对象；
如果该位置已经有元素存在，需要通过链表遍历找到对应的键值对，如果找到键相同的元素，则更新值；
如果链表中没有相同的键，将新的`Entry`对象添加到链表的末尾。在`get`方法中，也是根据键的哈希值计算出数组中的索引位置，然后遍历链表找到对应的键值对。
如果找到了键相同的元素，返回对应的值；如果没有找到，返回`null`。需要注意的是，上面的示例只是HashMap的简化版，实际的HashMap还包含了很多其他的方法和逻辑，如扩容、迭代器、并发控制等。
如果你对HashMap的详细实现感兴趣，你可以查阅Java标准库中HashMap的源码。

3.2.3、HashMap是如何解决Hash冲突的？

答：
在Java中，HashMap使用了链地址法（chaining）来解决哈希冲突。具体来说，HashMap内部使用一个数组来存储键值对，每个数组元素称为桶（bucket）。

当HashMap要存储一个键值对时，它首先会通过键的hashCode()方法计算出哈希码。然后，根据哈希码通过取模运算得到桶的索引位置。如果该桶为空，即没有发生哈希冲突，则直接将键值对存储在该桶中。如果发生了哈希冲突，即两个或更多的键具有相同的哈希码，那么这些键值对将以链表的形式存储在同一个桶中。
当需要从HashMap中获取某个键对应的值时，HashMap首先会通过键的hashCode()方法计算哈希码，然后根据哈希码找到对应的桶。接着，它会遍历该桶中的链表，比较每个键是否与目标键相等（使用equals()方法进行比较）。如果找到了相等的键，则返回对应的值；如果遍历完链表仍未找到相等的键，则返回null。

需要注意的是，当链表长度超过一定阈值（默认为8）时，HashMap会将链表转换为红黑树。这样可以提高在大量键值对时的查找效率。当然，如果链表长度小于等于6时，HashMap会将红黑树转换回链表，以节省内存。

总结起来，HashMap通过链地址法解决了哈希冲突，即将具有相同哈希码的键值对以链表的形式存储在同一个桶中，通过equals方法比较键的值来找到对应的值。

3.2.4、HashMap什么时候扩容？如何自动扩容？

答：
HashMap在插入元素时会检查当前的元素数量是否达到了负载因子（load factor）的阈值。负载因子是指HashMap中存储元素的比例，它的默认值是0.75。当存储的元素数量超过了负载因子乘以HashMap的容量时，就会触发扩容操作。

HashMap的自动扩容操作会创建一个新的更大容量的数组，并将所有元素重新分配到新的数组中。这个过程涉及到重新计算每个元素在新数组中的位置，并将其插入到正确的位置上。扩容操作会导致HashMap内部的散列函数重新计算，以保证插入元素的均匀分布。

在扩容过程中，HashMap会将原有数组中的元素一个个重新计算并插入到新数组中，这个过程是逐个迁移的。具体来说，扩容操作会先将原有的数组元素保存到一个临时变量中，然后创建新的更大容量的数组，并将每个元素重新计算并放入新数组中。这样做的好处是可以避免因为数组容量不足而频繁进行扩容操作，节省了时间和空间。

自动扩容操作可以通过调用HashMap的put()方法来触发，当元素数量超过容量乘以负载因子时，会自动触发扩容操作。同时，也可以通过显式调用HashMap的resize()方法来手动触发扩容操作。

扩展：
扩容操作会涉及到重新计算每个元素在新数组中的位置，并将其插入到正确的位置上。这个过程可能会比较耗时，因此在应用中，最好在事先知道HashMap需要保存的元素数量的情况下，提前设置HashMap的初始容量，以减少扩容操作的次数，提高性能。

3.2.5、为什么HashMap会产生死循环？

答：
在Java中，HashMap的死循环问题通常是由于多个线程同时对HashMap进行并发修改操作引起的。当多个线程同时修改HashMap的结构时，可能会导致HashMap的内部结构不一致，进而导致死循环。

在HashMap中，有一个内部变量modCount用于记录HashMap结构修改的次数。当一个线程在进行迭代操作时，会先保存modCount的值，然后在迭代的过程中比较保存的modCount值和当前HashMap的modCount值。如果两者不一致，则说明HashMap发生了结构修改，迭代操作会抛出ConcurrentModificationException异常。然而，如果多个线程同时对HashMap进行修改，并且修改操作之间的时间非常接近，可能会导致多个线程同时检查modCount值，从而绕过了检查，发生了死循环。

扩展：
为了避免HashMap的死循环问题，可以采取以下措施：

使用线程安全的HashMap实现，如ConcurrentHashMap。
在并发修改HashMap时，使用同步机制（如synchronized）来保证同一时间只有一个线程对HashMap进行修改。
在迭代HashMap的过程中，不要进行修改操作，可以使用Iterator遍历，并通过Iterator的remove方法删除元素。

3.2.6、HashMap和TreeMap的区别是什么？

答：
HashMap和TreeMap都是Map接口的实现类，用于存储键值对。

区别如下：

底层数据结构：
- HashMap：使用哈希表（数组+链表/红黑树），根据键的哈希值存储键值对，不保证插入顺序；
- TreeMap：使用红黑树，根据键的自然顺序或者自定义比较器对键进行排序存储。
排序特性：
- HashMap：无序存储键值对，根据键的哈希值进行存储和查找，查找效率较高；
- TreeMap：按照键的自然顺序或者自定义比较器对键进行排序，可以实现对键的有序访问。
性能：
- HashMap的插入、删除、查询等操作的时间复杂度为O(1)（平均情况下），具有较好的性能；
- TreeMap的插入、删除、查询等操作的时间复杂度为O(log(n))，其中n为元素个数。
使用场景：
- HashMap适用于无序存储，对于查找操作的频繁场景，如缓存、查找表等；
- TreeMap适用于需要对键进行有序存储和检索的场景，如需要按照键的顺序遍历、查找等。

扩展：
根据实际需求和使用场景选择合适的数据结构。如果需要有序访问或者按照键的顺序进行操作，使用TreeMap；如果无需有序访问或者对性能要求较高，可以选择HashMap。

3.2.7、为什么ConcurrentHashMap的key不允许为null？

答：
首先要了解，HashMap允许键和值为null。在HashMap中，null被视为一个有效的键或值，并且可以被插入和检索。但是需要注意的是，如果键重复，那么后面插入的键值对会覆盖之前的键值对。
在Java中，ConcurrentHashMap的key不允许为null的原因是为了保证数据的一致性和避免引发潜在的问题。

ConcurrentHashMap是一个线程安全的哈希表，它通过将数据划分为多个段来实现并发访问的高效率。每个段都拥有一个独立的锁，可以同时被多个线程访问，这样就可以减少线程间的竞争。

然而，如果允许key为null，就会导致在查询、插入和删除等操作时出现潜在的问题。在ConcurrentHashMap中，对于每个key的哈希值都会通过哈希函数计算得出一个索引，用于确定该key在哪个段中存储。但如果key为null，由于无法计算hash值，就无法确定key应该存储在哪个段中。

另外，ConcurrentHashMap的实现中使用了一些特殊的技术，例如偏移量等，用于提高并发性能。如果允许key为null，就会引发一些复杂的问题，如指针偏移计算错误等，可能导致数据的不一致性和线程安全性问题。

因此，为了保证ConcurrentHashMap的正确性和一致性，不允许key为null。如果需要存储null值，可以将null作为value存储，或者使用其他的数据结构来代替ConcurrentHashMap。

3.2.8、谈谈你对ConcurrentHashMap底层实现原理的理解

答：
ConcurrentHashMap是Java中用于高并发环境下线程安全的哈希表实现。它的底层实现原理主要涉及了以下几个方面：

分段锁：ConcurrentHashMap将整个哈希表分成了一系列的小段(segment)，每个段都有自己的锁。这种分段的设计使得多个线程可以同时访问不同的段，从而提高了并发性能。因此，在读操作时，只需要锁住特定的段，而不是整个哈希表。这样就允许了多个线程同时读取不同的段，提高了并发性能。而对于写操作，需要锁住对应的段，保证数据一致性。
CAS操作：ConcurrentHashMap使用了CAS（Compare and Swap）操作来实现线程安全。CAS是一种无锁的原子操作，通过比较内存中的值和预期值，如果相等则更新为新的值。这种机制使得ConcurrentHashMap在并发环境下能够实现高效的数据修改和更新。
链表和红黑树：在ConcurrentHashMap中，每个段(segment)内部是一个类似于HashMap的结构，使用链表来解决哈希冲突。当链表长度过长时，会将链表转化为红黑树，以提高查找的效率。这种设计使得ConcurrentHashMap既能在小规模数据下保持高效，又能在大规模数据下提供良好的性能。
扩容：ConcurrentHashMap采用了分段锁机制，使得在扩容时只需要锁住正在被操作的段，而其他段仍然可以继续读写。这种设计使得ConcurrentHashMap的扩容操作对于并发性能影响较小。

扩展：
总结：ConcurrentHashMap是通过分段锁、CAS操作、链表和红黑树等技术来实现线程安全和高并发的特性。这些设计和实现机制使得ConcurrentHashMap成为Java中常用的线程安全的哈希表实现。

3.2.9、ConcurrentHashMap是如何保证线程安全的？

答：
ConcurrentHashMap是Java中线程安全的哈希表实现，它通过以下几个机制来保证线程安全：

分段锁：ConcurrentHashMap内部使用一个Segment数组来存储键值对，每个Segment具有自己的锁。这样不同的线程可以同时访问不同的Segment，从而减小了锁的粒度，提高了并发性能。
读写分离：ConcurrentHashMap允许多个线程同时读取数据，而不会阻塞。读操作不需要获得锁，只有写操作需要获得锁，并且会阻塞其他的读写操作。这样可以提高并发读的性能。
CAS操作：ConcurrentHashMap使用CAS（Compare and Swap）操作来保证线程安全。CAS是一种无锁的原子操作，通过比较当前值和期望值是否相等来决定是否更新。如果多个线程同时进行CAS操作，只有一个线程会成功，其他线程需要重试。这样可以避免使用锁带来的性能损失。