一、HashMap簡介
HashMap即是散列表,它存儲的是鍵值對(key-value)映射。
HashMap 繼承於AbstractMap,實現了Map、Cloneable、java.io.Serializable接口。
HashMap的實現是不同步的,這意味着他線程不安全。(HashTable的實現是線程安全的,只是實現的方式比較粗暴,直接給每個方法添加了synchronized)
HashMap是通過“拉鏈法”實現的哈希表。
二、HashMap結構
數據結構的物理存儲結構一般有兩種:
- 順序存儲結構(數組。。。)
- 鏈式存儲結構(鏈表。。)
數組可以把它想象為一隊每個都編好了號的小朋友,當你要找某個小朋友的時候,你只需要知道他的編號就可以了(其實就是下標),也就是常說的查詢效率高,但是如果你想要在他們之間再增加或者去掉一個小朋友,你就需要把它后面的小朋友的編號全部改變,也就是常說的增刪較為麻煩。
而鏈表則可以看成一隊小朋友,他們每個人手里一只手拿着自己上一個小朋友的編號,一只手拿着自己下一個小朋友的編號,這樣你要增加或者去掉某個小朋友時,你只需要將他們手里的編號相應的變更(只變更會受影響的),也就是增刪效率較高,但是當你查詢時,你就需要一個一個去遍歷,效率顯得就比較低。
而HashMap則是結合了數組與鏈表的優點,使得HashMap的增刪改查效率都很高。
HashMap的主干還是一個數組,而數組則又是由一個個Entry數組作為它的基本組成單元。簡單的來說HashMap是由數組+鏈表組成的。下面我們可以通過HashMap的結構圖來看到它的基本結構。
大方向上,HashMap 里面是一個數組,然后數組中每個元素是一個單向鏈表。
上圖中,每個綠色的實體是嵌套類 Entry 的實例,Entry 包含四個屬性:key, value, hash 值和用於單向鏈表的 next。
三、HashMap源碼分析
我們可以通過閱讀源碼來對HashMap有更深一步的理解,源碼基於JDK1.6.0_45。
首先
1、重要的成員變量
HashMap中有幾個重要的成員變量:
DEFAULT_INITIAL_CAPACITY 默認的初始容量
MAXIMUM_CAPACITY 最大容量
DEFAULT_LOAD_FACTOR 默認加載因子。 加載因子是HashMap在其容量自動增加和之前可以達到多滿的一種尺度。
Entry[] table Entry數組類型,HashMap的鍵值對都是存儲在Entry數組中
threshold 閾值。用於判斷是否需要調整HashMap的容量。threshold = "容量" * "加載因子"
若:加載因子越大,填滿的元素越多,好處是,空間利用率高了,但:沖突的機會加大了.鏈表長度會越來越長,查找效率降低。
反之,加載因子越小,填滿的元素越少,好處是:沖突的機會減小了,但:空間浪費多了.表中的數據將過於稀疏(很多空間還沒用,就開始擴容了)
沖突的機會越大,則查找的成本越高.
因此,必須在 "沖突的機會"與"空間利用率"之間尋找一種平衡與折衷. 這種平衡與折衷本質上是數據結構中有名的"時-空"矛盾的平衡與折衷.
如果機器內存足夠,並且想要提高查詢速度的話可以將加載因子設置小一點;相反如果機器內存緊張,並且對查詢速度沒有什么要求的話可以將加載因子設置大一點。不過一般我們都不用去設置它,讓它取默認值0.75就好了。
2、構造函數:

public HashMap(int initialCapacity, float loadFactor) { //確保數字合法 if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); // Find a power of 2 >= initialCapacity int capacity = 1; //初始容量 while (capacity < initialCapacity) //確保容量為2的n次冪,使capacity為大於initialCapacity的最小的2的n次冪 capacity <<= 1; this.loadFactor = loadFactor; threshold = (int)(capacity * loadFactor); table = new Entry[capacity]; init(); } public HashMap(int initialCapacity) { this(initialCapacity, DEFAULT_LOAD_FACTOR); } public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; threshold = (int)(DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR); table = new Entry[DEFAULT_INITIAL_CAPACITY]; init(); }
從構造函數中我們可以看出,當我們使用默認的不帶參數的構造函數時,那么就會使用默認的初始容量(16)和加載因子(0.75),當然我們也可以自己指定初始容量和加載因子。
3、存儲數據 put()、get():
put()和get()方法是使用的最多的兩個方法:

public V put(K key, V value) { // 若“key為null”,則將該鍵值對添加到table[0]中。 if (key == null) return putForNullKey(value); // 若“key不為null”,則計算該key的哈希值,然后將其添加到該哈希值對應的鏈表中。 int hash = hash(key.hashCode()); //搜索指定hash值在對應table中的索引 int i = indexFor(hash, table.length); // 循環遍歷Entry數組,若“該key”對應的鍵值對已經存在,則用新的value取代舊的value。然后退出! for (Entry<K,V> e = table[i]; e != null; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { //如果key相同則覆蓋並返回舊值 V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } //修改次數+1 modCount++; //將key-value添加到table[i]處 addEntry(hash, key, value, i); return null; }
這里用到了一個重要的內部接口:Map.Entry,每個 Map.Entry 其實就是一個 key-value 對。從上面程序中可以看出:當系統決定存儲 HashMap 中的 key-value 對時,完全沒有考慮 Entry 中的 value,僅僅只是根據 key 來計算並決定每個 Entry 的存儲位置。這也說明了前面的結論:我們完全可以把 Map 集合中的 value 當成 key 的附屬,當系統決定了 key 的存儲位置之后,value 隨之保存在那里即可。
第2和3行的作用就是處理key值為null的情況,我們看看putForNullKey(value)方法

private V putForNullKey(V value) { for (Entry<K,V> e = table[0]; e != null; e = e.next) { if (e.key == null) { //如果有key為null的對象存在,則覆蓋掉 V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } modCount++; addEntry(0, null, value, 0); //如果鍵為null的話,則hash值為0 return null; }
如果key為null的話,hash值為0,對象存儲在數組中索引為0的位置。即table[0];
再看put方法中第4行,它是通過key的hashCode值計算hash碼,下面是計算hash碼的函數:
static int hash(int h) { // This function ensures that hashCodes that differ only by // constant multiples at each bit position have a bounded // number of collisions (approximately 8 at default load factor). h ^= (h >>> 20) ^ (h >>> 12); return h ^ (h >>> 7) ^ (h >>> 4); }
得到hash碼之后就會通過hash碼去計算出應該存儲在數組中的索引,計算索引的函數如下:
static int indexFor(int h, int length) { //根據hash值和數組長度算出索引值 return h & (length-1); //這里不能隨便算取,用hash&(length-1)是有原因的,這樣可以確保算出來的索引是在數組大小范圍內,不會超出,&運算時當同時為1,結果為1,否則為0 }
我們一般對哈希表的散列很自然地會想到用hash值對length取模(即除法散列法),Hashtable中也是這樣實現的,這種方法基本能保證元素在哈希表中散列的比較均勻,但取模會用到除法運算,效率很低,HashMap中則通過h&(length-1)的方法來代替取模,同樣實現了均勻的散列,但效率要高很多,這也是HashMap對Hashtable的一個改進。
為什么哈希表的容量一定要是2的整數次冪。
首先,length為2的整數次冪的話,h&(length-1)就相當於對length取模,這樣便保證了散列的均勻,同時也提升了效率;其次,length為2的整數次冪的話,為偶數,這樣length-1為奇數,奇數的最后一位是1,這樣便保證了h&(length-1)的最后一位可能為0,也可能為1(這取決於h的值),即與后的結果可能為偶數,也可能為奇數,這樣便可以保證散列的均勻性,而如果length為奇數的話,很明顯length-1為偶數,它的最后一位是0,這樣h&(length-1)的最后一位肯定為0,即只能為偶數,這樣任何hash值都只會被散列到數組的偶數下標位置上,這便浪費了近一半的空間,因此,length取2的整數次冪,是為了使不同hash值發生碰撞的概率較小,這樣就能使元素在哈希表中均勻地散列。
舉個例子來說明:
假設數組長度分別為15和16,優化后的hash碼分別為8和9,那么&運算后的結果如下:
h & (table.length-1) hash table.length-1 8 & (15-1): 1000 & 1110 = 1000 9 & (15-1): 1001 & 1110 = 1000 ----------------------------------------------------------------------------------------------------------------------- 8 & (16-1): 1000 & 1111 = 1000 9 & (16-1): 1001 & 1111 = 1001
當它們和15-1(1110)相與的時候,產生了相同的結果,也就是說它們會定位到數組中的同一個位置上去,這就產生了碰撞,8和9會被放到數組中的同一個位置上形成鏈表,那么查詢的時候就需要遍歷這個鏈表,得到8或者9,這樣就降低了查詢的效率。同時,我們也可以發現,當數組長度為15的時候,hash值會與15-1(1110)進行相與,那么最后一位永遠是0,而0001,0011,0101,1001,1011,0111,1101這幾個位置永遠都不能存放元素了,空間浪費相當大,更糟的是這種情況中,數組可以使用的位置比數組長度小了很多,這意味着進一步增加了碰撞的幾率,減慢了查詢的效率!
而當數組長度為16時,即為2的n次方時,2n-1得到的二進制數的每個位上的值都為1,這使得在低位上&時,得到的和原hash的低位相同,加之hash(int h)方法對key的hashCode的進一步優化,加入了高位計算,就使得只有相同的hash值的兩個值才會被放到數組中的同一個位置上形成鏈表。
所以說,當數組長度為2的n次冪的時候,不同的key算得得index相同的幾率較小,那么數據在數組上分布就比較均勻,也就是說碰撞的幾率小,相對的,查詢的時候就不用遍歷某個位置上的鏈表,這樣查詢效率也就較高了。
根據上面 put 方法的源代碼可以看出,當程序試圖將一個key-value對放入HashMap中時,程序首先根據該 key 的 hashCode() 返回值決定該 Entry 的存儲位置:
- 如果兩個 Entry 的 key 的 hashCode() 返回值相同,那它們的存儲位置相同。
- 如果這兩個 Entry 的 key 通過 equals 比較返回 true,新添加 Entry 的 value 將覆蓋集合中原有 Entry 的 value,但key不會覆蓋。
- 如果這兩個 Entry 的 key 通過 equals 比較返回 false,新添加的 Entry 將與集合中原有 Entry 形成 Entry 鏈,而且新添加的 Entry 位於 Entry 鏈的頭部
addEntry() 方法
1 void addEntry(int hash, K key, V value, int bucketIndex) { 2 Entry<K,V> e = table[bucketIndex]; //如果要加入的位置有值,將該位置原先的值設置為新entry的next,也就是新entry鏈表的下一個節點 3 table[bucketIndex] = new Entry<>(hash, key, value, e); 4 if (size++ >= threshold) //如果大於臨界值就擴容 5 resize(2 * table.length); //以2的倍數擴容 6 }
參數bucketIndex就是indexFor函數計算出來的索引值,第2行代碼是取得數組中索引為bucketIndex的Entry對象,第3行就是用hash、key、value構建一個新的Entry對象放到索引為bucketIndex的位置,並且將該位置原先的對象設置為新對象的next構成鏈表。
第4行和第5行就是判斷put后size是否達到了臨界值threshold,如果達到了臨界值就要進行擴容,HashMap擴容是擴為原來的兩倍。
4、調整大小
調整大小的resize()方法:
void resize(int newCapacity) { Entry[] oldTable = table; int oldCapacity = oldTable.length; if (oldCapacity == MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return; } Entry[] newTable = new Entry[newCapacity]; transfer(newTable);//用來將原先table的元素全部移到newTable里面 table = newTable; //再將newTable賦值給table threshold = (int)(newCapacity * loadFactor);//重新計算臨界值 }
新建了一個HashMap的底層數組,上面代碼中第10行為調用transfer方法,將HashMap的全部元素添加到新的HashMap中,並重新計算元素在新的數組中的索引位置
當HashMap中的元素越來越多的時候,hash沖突的幾率也就越來越高,因為數組的長度是固定的。所以為了提高查詢的效率,就要對HashMap的數組進行擴容,數組擴容這個操作也會出現在ArrayList中,這是一個常用的操作,而在HashMap數組擴容之后,最消耗性能的點就出現了:原數組中的數據必須重新計算其在新數組中的位置,並放進去,這就是resize。
那么HashMap什么時候進行擴容呢?當HashMap中的元素個數超過數組大小*loadFactor時,就會進行數組擴容,loadFactor的默認值為0.75,這是一個折中的取值。也就是說,默認情況下,數組大小為16,那么當HashMap中元素個數超過16*0.75=12的時候,就把數組的大小擴展為 2*16=32,即擴大一倍,然后重新計算每個元素在數組中的位置,擴容是需要進行數組復制的,復制數組是非常消耗性能的操作,所以如果我們已經預知HashMap中元素的個數,那么預設元素的個數能夠有效的提高HashMap的性能。
5、數據讀取
public V get(Object key) { if (key == null) return getForNullKey(); int hash = hash(key.hashCode()); for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || key.equals(k))) return e.value; } return null; }
從上面的源代碼中可以看出:從HashMap中get元素時,首先計算key的hashCode,找到數組中對應位置的某一元素,然后通過key的equals方法在對應位置的鏈表中找到需要的元素。
四、關於Hash沖突
Hash沖突就是鍵(key)經過hash函數得到的結果作為地址去存放當前的鍵值對(key-value)(這個是hashmap的存值方式),但是卻發現該地址已經有人先來了,一山不容二虎,就會產生沖突。這個沖突就是hash沖突了。看了上面的源碼之后,我們可以發現其實Entry數組的單鏈表就是用來解決哈希沖突的,解決哈希沖突還有很多種方法,就不再多說了。
接下來這一部分主要是來自於大神JavaDoop(https://javadoop.com/)
五、Java8中的HashMap
Java8中HashMap的最大不同是,它利用了紅黑樹,即由數組+鏈表+紅黑樹組成。
在Java8以前的版本中,我們查找一個數據的時候,根據 hash 值我們能夠快速定位到數組的具體下標,但是之后的話,需要順着鏈表一個個比較下去才能找到我們需要的,時間復雜度取決於鏈表的長度,為 O(n)。
為了降低這部分的開銷,在 Java8 中,當鏈表中的元素超過了 8 個以后,會將鏈表轉換為紅黑樹,在這些位置進行查找的時候可以降低時間復雜度為 O(logN)。
當然,上圖只是一個結構示意圖,主要是描述結構,不會達到這個狀態的,因為這么多數據的時候早就擴容了。
Java7 中使用 Entry 來代表每個 HashMap 中的數據節點,Java8 中使用 Node,基本沒有區別,都是 key,value,hash 和 next 這四個屬性,不過,Node 只能用於鏈表的情況,紅黑樹的情況需要使用 TreeNode。
我們根據數組元素中,第一個節點數據類型是 Node 還是 TreeNode 來判斷該位置下是鏈表還是紅黑樹的。
put()方法
public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } // 第三個參數 onlyIfAbsent 如果是 true,那么只有在不存在該 key 時才會進行 put 操作 // 第四個參數 evict 我們這里不關心 final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; // 第一次 put 值的時候,會觸發下面的 resize(),類似 java7 的第一次 put 也要初始化數組長度 // 第一次 resize 和后續的擴容有些不一樣,因為這次是數組從 null 初始化到默認的 16 或自定義的初始容量 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; // 找到具體的數組下標,如果此位置沒有值,那么直接初始化一下 Node 並放置在這個位置就可以了 if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); else {// 數組該位置有數據 Node<K,V> e; K k; // 首先,判斷該位置的第一個數據和我們要插入的數據,key 是不是"相等",如果是,取出這個節點 if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; // 如果該節點是代表紅黑樹的節點,調用紅黑樹的插值方法,本文不展開說紅黑樹 else if (p instanceof TreeNode) e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); else { // 到這里,說明數組該位置上是一個鏈表 for (int binCount = 0; ; ++binCount) { // 插入到鏈表的最后面(Java7 是插入到鏈表的最前面) if ((e = p.next) == null) { p.next = newNode(hash, key, value, null); // TREEIFY_THRESHOLD 為 8,所以,如果新插入的值是鏈表中的第 9 個 // 會觸發下面的 treeifyBin,也就是將鏈表轉換為紅黑樹 if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st treeifyBin(tab, hash); break; } // 如果在該鏈表中找到了"相等"的 key(== 或 equals) if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) // 此時 break,那么 e 為鏈表中[與要插入的新值的 key "相等"]的 node break; p = e; } } // e!=null 說明存在舊值的key與要插入的key"相等" // 對於我們分析的put操作,下面這個 if 其實就是進行 "值覆蓋",然后返回舊值 if (e != null) { V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; afterNodeAccess(e); return oldValue; } } ++modCount; // 如果 HashMap 由於新插入這個值導致 size 已經超過了閾值,需要進行擴容 if (++size > threshold) resize(); afterNodeInsertion(evict); return null; }
數組擴容
resize() 方法用於初始化數組或數組擴容,每次擴容后,容量為原來的 2 倍,並進行數據遷移。

final Node<K,V>[] resize() { Node<K,V>[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0; if (oldCap > 0) { // 對應數組擴容 if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; } // 將數組大小擴大一倍 else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) // 將閾值擴大一倍 newThr = oldThr << 1; // double threshold } else if (oldThr > 0) // 對應使用 new HashMap(int initialCapacity) 初始化后,第一次 put 的時候 newCap = oldThr; else {// 對應使用 new HashMap() 初始化后,第一次 put 的時候 newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } if (newThr == 0) { float ft = (float)newCap * loadFactor; newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } threshold = newThr; // 用新的數組大小初始化新的數組 Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab; // 如果是初始化數組,到這里就結束了,返回 newTab 即可 if (oldTab != null) { // 開始遍歷原數組,進行數據遷移。 for (int j = 0; j < oldCap; ++j) { Node<K,V> e; if ((e = oldTab[j]) != null) { oldTab[j] = null; // 如果該數組位置上只有單個元素,那就簡單了,簡單遷移這個元素就可以了 if (e.next == null) newTab[e.hash & (newCap - 1)] = e; // 如果是紅黑樹,具體我們就不展開了 else if (e instanceof TreeNode) ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); else { // 這塊是處理鏈表的情況, // 需要將此鏈表拆成兩個鏈表,放到新的數組中,並且保留原來的先后順序 // loHead、loTail 對應一條鏈表,hiHead、hiTail 對應另一條鏈表,代碼還是比較簡單的 Node<K,V> loHead = null, loTail = null; Node<K,V> hiHead = null, hiTail = null; Node<K,V> next; do { next = e.next; if ((e.hash & oldCap) == 0) { if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); if (loTail != null) { loTail.next = null; // 第一條鏈表 newTab[j] = loHead; } if (hiTail != null) { hiTail.next = null; // 第二條鏈表的新的位置是 j + oldCap,這個很好理解 newTab[j + oldCap] = hiHead; } } } } } return newTab; }
get()方法
- 計算 key 的 hash 值,根據 hash 值找到對應數組下標: hash & (length-1)
- 判斷數組該位置處的元素是否剛好就是我們要找的,如果不是,走第三步
- 判斷該元素類型是否是 TreeNode,如果是,用紅黑樹的方法取數據,如果不是,走第四步
- 遍歷鏈表,直到找到相等(==或equals)的 key
public V get(Object key) { Node<K,V> e; return (e = getNode(hash(key), key)) == null ? null : e.value; }
final Node<K,V> getNode(int hash, Object key) { Node<K,V>[] tab; Node<K,V> first, e; int n; K k; if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) { // 判斷第一個節點是不是就是需要的 if (first.hash == hash && // always check first node ((k = first.key) == key || (key != null && key.equals(k)))) return first; if ((e = first.next) != null) { // 判斷是否是紅黑樹 if (first instanceof TreeNode) return ((TreeNode<K,V>)first).getTreeNode(hash, key); // 鏈表遍歷 do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null); } } return null; }
Java中HashMap部分的知識大概就是這些了,如果有什么后續再補充。