Source Code of HashMap | HashMap源码学习

/ 2021-10-03 / 1100 Words/has been Read   Times


背景 #

HashMap近年来是Java面试经常会被问到的知识点,现在也有很多的博客对这个做了介绍,但是我个人感觉这些博客的关注点都倾向于面试问答,看完后好像对HashMap还是似懂非懂。所以我想从源代码出发写这一篇内容,因为能力和所学知识有限,如果文章内容有任何问题欢迎大家批评指正!

笔者的JVM版本是hotspot的1.8.0版本,具体细节如下:

img

首先从Java API文档来看对HashMap的介绍,

img

可以看到HashMap位于util包下,所有实现的接口为Serializable, Cloneable和Map<K,V>,

子类包括LinkedHashMap和PrinterStateReasons,如下图所示:

img

以下是官方对HashMap的解释:

HashMap是基于哈希表的Map接口实现。这个实现提供了所有可选的map操作,并允许空值和空键

Hashtable的Key和Value都不能为空。

这个类不保证映射的顺序;特别是,它不能保证随着时间的推移,顺序将保持不变。在哈希函数将元素正确地分散在存储桶(buckets)中的前提下,这种实现为基本操作(get和put)提供了常数时间的性能。

对集合视图的迭代需要与HashMap实例的capacity(bucket的数量),加上它的大小(键值映射的数量)成比例的时间。因此,如果迭代性能很重要,那么不要将初始容量设置得太高(或者负载系数太低)。

HashMap的实例有两个影响其性能的参数:初始容量(initial capacity)和负载因子(load factor)。容量是哈希表中存储桶的数量,初始容量只是创建哈希表时的容量。负载因子是在哈希表的容量自动增加之前,允许哈希表获得的完整度的度量。当哈希表中的条目数超过负载因子和当前容量的乘积时,哈希表将被rehashed(即,重建内部数据结构),以便哈希表具有大约两倍的存储桶数。

笔者注:这里确实是大约两倍,因为实际上是(容量*负载系数)«1, 当负载系数为1时才是真正意义上的两倍。

一般来讲,**默认负载系数(.75)**在时间和空间成本之间提供了一个很好的折衷。较高的值会减少空间开销,但会增加查找成本(反映在HashMap类的大多数操作中,包括get和put)。在设置初始容量时,应考虑map中的预期条目数(number of entries)及其负载系数,以尽量减少rehash操作的次数。如果初始容量大于最大条目数除以负载系数,则不会发生rehash操作。

如果要在HashMap实例中存储多个映射,那么使用足够大的容量创建它将允许更有效地存储映射,而不是让它根据需要执行rehash以增加表。请注意,使用具有相同hashCode()的多个键肯定会降低任何哈希表的性能。为了改善影响,当键是Comparable时,此类可以使用键之间的比较顺序来帮助打破联系。

Note that this implementation is not synchronized. 如果多个线程同时访问hash map,并且至少有一个线程在结构上修改了该映射,则必须在外部对其进行同步(结构修改是添加或删除一个或多个映射的任何操作;仅仅更改与实例已包含的键相关联的值并不是结构修改。)这通常是通过在自然封装映射的某个对象上进行同步来实现的。如果不存在这样的对象,则应该使用Collections.synchronizedMap方法“包装”映射。最好在创建时执行此操作,以防止对map的意外非同步访问:

Map m=Collections.synchronizedMapnew HashMap(…));

这个类的所有“集合视图方法”返回的迭代器都是fail-fast 的:如果在迭代器创建之后的任何时候,以任何方式(除了通过迭代器自己的remove方法)对映射进行结构修改,迭代器将抛出ConcurrentModificationException。因此,在面对并发修改时,迭代器会快速而干净地失败,而不是冒着在将来不确定的时间出现任意的、不确定的行为的风险。

注意,不能保证迭代器的fail-fast 行为,因为一般来说,在存在非同步并发修改的情况下,不可能做出任何硬保证。Fail-fast 迭代器会尽最大努力抛出ConcurrentModificationException。因此,编写一个依赖于此异常来保证其正确性的程序是错误的:迭代器的fail-fast行为应该只用于检测bug。

此类是Java集合框架的成员。

以上内容是官方的API文档对HashMap的解释,因为原文档是全英的描述,如果翻译有错还请帮忙指正。下面从HashMap.java类出发来介绍。

基本结构 #

HashMap.java类总共有两千多行,涉及十多个方法。

成员变量如下:

private static final long serialVersionUID = 362498820763181265L;

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16,初始容量必须是2的幂
//1 << 4表示将1左移4位,即1 -> 10000(2) = 16,说明初始容量是16
static final int MAXIMUM_CAPACITY = 1 << 30; //最大容量 
static final float DEFAULT_LOAD_FACTOR = 0.75f;  //默认负载因子
static final int TREEIFY_THRESHOLD = 8;  //转化为红黑树需要的链表节点数
static final int UNTREEIFY_THRESHOLD = 6;  //resize操作期间(拆分)存储箱的计数阈值应该大于6小于8
static final int MIN_TREEIFY_CAPACITY = 64;  //最小可以被树化(treeified)的表容量
//为了调整 resizing和treeification thresholds之间的矛盾, MIN_TREEIFY_CAPACITY应该至少为4 * TREEIFY_THRESHOLD
transient Node<K,V>[] table;  //键值对表
transient Set<Map.Entry<K,V>> entrySet;  //保留缓存的entrySet()
transient int size;      //包含的键值对的数量
transient int modCount;  //HashMap在结构上被修改的次数
int threshold;        //要调整大小的下一个大小值(容量*负载系数)
final float loadFactor;  //负载因子

构造方法有以下几种:

//1.无参
public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
 }

//2.初始容量
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}

//3.初始容量和负载因子
public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
} 

//4.利用已有的map构造一个新的HashMap  
public HashMap(Map<? extends K, ? extends V> m) {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
    putMapEntries(m, false);  //这里用到了putMapEntries方法
}

主要的成员方法: #

  1. 首先是putMapEntries方法,它是用来初始化构造方法的
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
        int s = m.size();
        if (s > 0) {
            if (table == null) { // pre-size
                float ft = ((float)s / loadFactor) + 1.0F;
                int t = ((ft < (float)MAXIMUM_CAPACITY) ?
                         (int)ft : MAXIMUM_CAPACITY);
                if (t > threshold)
                    threshold = tableSizeFor(t);
            }
            else if (s > threshold)
                resize();
            for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
                K key = e.getKey();
                V value = e.getValue();
                putVal(hash(key), key, value, false, evict);
            }
        }
    }

在这个方法中进行了一系列的判定,并且得到了每一个键值对,最后又调用了putVal()方法进行初始化。putVal()方法是整个扩容,链表转换为红黑树的进入方法。同时很多其他方法的内部都会通过调用这个方法来改变整个HashMap的结构,具体细节如下:

 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)  //判断table是否为空或者大小是否为0
            n = (tab = resize()).length;   //如果为空或为0,就调用resize方法,方法最后会返回大小0
        if ((p = tab[i = (n - 1) & hash]) == null) //如果hash之后的table对应处没有值,则创建新的Node并赋值
            tab[i] = newNode(hash, key, value, null);
        else {  //说明hash之后的table对应处已经有值了
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st,这里需要转换成红黑树
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold) //当容量超过了threshold就要进行扩容
            resize();  
        afterNodeInsertion(evict);
        return null;
 }

关于hash算法的细节可以参考这篇博客HashMap中的hash算法总结_晴天-CSDN博客_hashmap的hash算法

在方法最开始就用到了Node<K,V>,这是HashMap.java的一个内部类,它实现了Map.Entry<K,V>接口,部分代码如下:

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

      ……  //省略了部分set,get方法
     public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
       }
}

这里就是说通过Node类把传进来的key,value做了一个封装,同时也指出了下一个Node的地址。另外这里还用到了一些别的方法,像newNode,treeifyBin等都是一些封装的方法,且都能见名知意,所以这里就不再列出。除了Node以外HashMap还创建了一个TreeNode<K,V>的内部类继承自LinkedHashMap.Entry<K,V>。因为链表数超过8的时候要转成红黑树,所以TreeNode就用来表示树结点。而Node用来表示链表的结点。TreeNode的部分代码实现如下:

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // red-black tree links
        TreeNode<K,V> left;
        TreeNode<K,V> right;
        TreeNode<K,V> prev;    // needed to unlink next upon deletion
        boolean red;
        TreeNode(int hash, K key, V val, Node<K,V> next) {
            super(hash, key, val, next);
        }
        …… //这里省略了和红黑树相关的一些方法实现
}
  1. resize方法,当bucket的容量超过了threshold的值,就要进行扩容。这里主要先判断是否table为空,如果为空就设置容量为0,否则就采用原来table的大小。然后当原始容量大于0时判断有没有超过或等于最大容量,如果是的话就赋值为最大容量。否则就将原始容量左移一位,即将容量扩大为原来的二倍。
final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;  //如果之前表为空,就创建大小为0;否则为原来的大小
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {  //超过最大容量返回最大容量
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;   //改变threshold的值
        @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // preserve order
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
}
  1. 对外提供的一些API
 public V get(Object key) {
      Node<K,V> e;
      return (e = getNode(hash(key), key)) == null ? null : e.value;
  }

 public boolean containsKey(Object key) {
        return getNode(hash(key), key) != null;
  }

 public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
 }

public V remove(Object key) {
    Node<K,V> e;
    return (e = removeNode(hash(key), key, null, false, true)) == null ?
        null : e.value;
}

public void putAll(Map<? extends K, ? extends V> m) {
   putMapEntries(m, true);
}

……

以上就是HashMap的部分实现,因为篇幅所限,关于一些细节性的问题本文没有作详细的说明,感兴趣的读者可以去阅读HashMap的源码。

Last modified on 2021-10-03