HashMap底層數據結構和算法解析


1.Hash Map的數據結構?

A:哈希表結構(鏈表散列:數組+鏈表)實現,結合數組和鏈表的優點。當鏈表長度超過8時,鏈表轉換為紅黑樹。

 transient Node<K,V>[] table;

 

2.HashMap的工作原理

A:HashMap底層是hash數組和單向鏈表實現,數組中的每個元素都是鏈表,由Node內部類(實現Map.Entry<k,V>接口)實現,HashMap通過put&get方法存儲和獲取。

存儲對象時,將K/V鍵值對傳給put()方法;

①、調用hash(K)方法計算K的hash值,然后結合數組長度,計算得數組下標;

②、調整數組大小(當容器中得元素個數大於capacity*loadFactor時,容器會進行resize為2n)

③、

i、如果K的hash值在HashMap不存在,則執行插入;若存在,則發生碰撞;

ii、如果K的hash值在HashMap存在,且它們兩者equals返回true,則更新鍵值對;

iii、如果K的hash值在HashMap存在,且它們兩者equals返回false,則插入鏈表的尾部(尾插法)或者紅黑樹(樹的添加方式)

(JDK1.7 之前使用頭插法、JDK 1.8 使用尾插法)

(注意:當碰撞導致鏈表大於TREEIFY_THRESHOLD = 8時,就把鏈表轉換為紅黑樹)

獲取對象時,將K傳給get()方法:

①、調用hash(K)方法(計算K的hash值)從而獲取該鍵值對所在鏈表的數組下標;

②、順序遍歷鏈表,equals()方法查找相同Node鏈表K值對應的V值

hashCode是定位的,存儲位置;

equals是定性的,比較兩者是否相等。

 

3.當兩個對象的hashCode相同會發生什么?

A:因為hashCode相同,不一定就是相等的(equals方法比較),所以兩個對象所在數組下標相同,“碰撞”就此發生。又因為HashMap使用鏈表存儲對象,這個Node會存儲到鏈表下。

 

4.:你知道hash的實現嗎?為什么要這樣實現?

A:JDK1.8中,是通過hashCode()的高16位異或低16位實現的:(h = k.hashCode()^(h>>>16))

主要是從速度、功效和質量來考慮的,減少系統的開銷,也不會造成因為高位沒有參與下標的計算,從而引起的碰撞。

 

5:為什么要用異或運算符?

A:保持了對象的hashCode的32位值只要有一位發生改變,整個hash()返回值就會改變。盡可能的減少碰撞。

 

6.HashMap的table的容量如何確定?loadFactor是什么?該容量如何變化?這種變化會帶來什么問題?

A:

①、table數組大小是由capacity這個參數確定的,默認是16,也可以構造時傳入,最大限制為1<<30;

②、loadFactor是負載因子,主要目的是用來確認table數組是否需要動態擴展,默認值是0.75,比如table數組大小為16,裝載因子為0.75時,threshold就是12,當table的實際大小超過12時,table就需要動態擴容;

③、擴容時,調用resize()方法,將table長度變為原來的兩倍(注意是table長度,而不是threshold)

④、如果數據很大的情況下,擴展時將會帶來性能的損失,在性能要求很高的地方,這種損失很可能很致命。

 

7.HashMap的遍歷方式及其性能對比

A:主要四種方式

no1、for-each  map.keySet()——只需要K值得時候推薦使用

for(String key : map.keySet()) {
     map.get(key);      
}

 

no2、for-each map.entrySet()——當需要V值得時候推薦使用

for(Map.Entry<String, String> entry : map.entrySet()) {
       entry.getKey();
       entry.getValue();
}

 

no3、for-each map.entrySet() + 臨時變量

Set<Map.Entry<String, String>> entrySet = map.entrySet();
    for (Map.Entry<String, String> entry : entrySet) {
        entry.getKey();
        entry.getValue();
}

 

no4、for-each map.entrySet().iterator()

Iterator<Map.Entry<String,String>> iterator = 
            map.entrySet().iterator();
while (iterator.hasNext()) { Map.Entry<String, String> entry = iterator.next(); entry.getKey(); entry.getValue(); }

 

8.HashMap、LinkedHashMap、TreeMap有什么區別?

A:HashMap參考其他問題;

LinkedHashMap保存了記錄得插入順序,用iterator遍歷時,先取到得記錄肯定是先插入得;遍歷比HashMap慢;

TreeMap實現SortMap接口,能夠把它保存的記錄根據鍵排序(默認按鍵值升序排序,也可以知道排序得比較器)

 

9.HashMap & TreeMap & LinkedHashMap 使用場景?

A:一般情況下,使用最多得是HashMao;

HashMap:在Map中插入、刪除和定位元素時;

TreeMap:在需要按自然順序或自定義順序遍歷鍵得情況下;

LinkedHashMap:在需要輸出的順序和輸入的順序相同的情況下。

 

10.HashMap和HashTable有什么區別?

A:

①、HashMap是線程不安全,HashTable是線程安全的;

②、由於線程安全,所以HashTable的效率比不上HashMap;

③、HashMap最多只允許一條記錄的鍵為null,允許多條激勵的值為null,而HashTable不允許;

④、HashMao默認初始化數組的大小為16,HashTable為11,前者擴容時,擴大兩倍,后者擴大兩倍+1;

⑤、HashMap需要重新計算hash值,而HashTable直接使用對象的hashCode。

 

11.同樣是線程類,ConcurrentHashMap 和 HashTable 在線程同步上有什么不同

A:ConcurrentHashMap類(是Java並發包java.util.concurrent中提供的一個線程安全且高效的Hash Map實現)

HashTable是使用synchronize關鍵字加鎖的原理(就是對對象加鎖)

而針對ConcurrentHashMap,在JDK1.7 中采用分段鎖的方式,JDK1.8 中直接采用了CAS(無鎖算法)+ synchronized。

 

12.HashMap & ConcurrentHashMap 的區別?

 A:除了加鎖,原理上無太大區別。

另外,HashMap的鍵值對允許有null,但是ConcurrentHashMap 都不允許。

 

13.為什么 ConcurrentHashMap 比 HashTable 效率要高?

A:HashTable使用一把鎖(鎖住整個鏈表結構)處理並發問題,多個線程競爭一把鎖,容易阻塞;

ConcurrentHashMap :

JDK1.7使用分段鎖(ReentrantLock + Segment + HashEntry)相當於把一個HashMap分成多個段,每段分配一把鎖,這樣支持多線程訪問。鎖粒度:基於Segment,包含多個HashEntry。

JDK1.8使用CAS + synchronized + Node + 紅黑樹。 鎖粒度:Node(首結點)(實現Map.Entry<K,V>)。鎖粒度降低了。

 

14:針對 ConcurrentHashMap 鎖機制具體分析(JDK 1.7 VS JDK 1.8)?

 A:JDK1.7中,采用分段鎖的機制,實現並發的更新操作,底層采用數組+鏈表的存儲結構,包括兩個核心靜態內部類Segment 和 HashEntry。

①、 Segment 繼承 ReentrantLock(重入鎖) 用來充當鎖的角色,每個 Segment 對象守護每個散列映射表的若干個桶;

②、HashEntry用來封裝映射表的鍵值對

③、每個桶是由若干個 HashEntry 對象鏈接起來的鏈表。

 
 
JDK 1.8 中,采用Node + CAS + Synchronized來保證並發安全。 取消類 Segment,直接用 table 數組存儲鍵值對;當 HashEntry 對象組成的鏈表長度超過 TREEIFY_THRESHOLD 時, 鏈表轉換為紅黑樹,提升性能。底層變更為 數組 + 鏈表 + 紅黑樹
 

 

15:ConcurrentHashMap 在 JDK 1.8 中,為什么要使用內置鎖 synchronized 來代替重入鎖 ReentrantLock?

 A:

i、粒度降低了

ii、JVM開發團隊沒有放棄synchronized,而且基於JVM的synchronized優化空間更大、更加自然

iii、在大量的數據操作下,對於JVM的內存壓力,基於API的ReentrantLock會開銷更多的內存。

 
16:ConcurrentHashMap 簡單介紹?
A:

①、重要的常量:
private transient volatile int sizeCtl;
當為負數時,-1 表示正在初始化,-N 表示 N - 1 個線程正在進行擴容;
當為 0 時,表示 table 還沒有初始化;
當為其他正數時,表示初始化或者下一次進行擴容的大小。

②、數據結構:
Node 是存儲結構的基本單元,繼承 HashMap 中的 Entry,用於存儲數據
TreeNode 繼承 Node,但是數據結構換成了二叉樹結構,是紅黑樹的存儲結構,用於紅黑樹中存儲數據
TreeBin 是封裝 TreeNode 的容器,提供轉換紅黑樹的一些條件和鎖的控制

③、存儲對象時(put() 方法):
1.如果沒有初始化,就調用 initTable() 方法來進行初始化
2.如果沒有 hash 沖突就直接 CAS 無鎖插入
3.如果需要擴容,就先進行擴容
4.如果存在 hash 沖突,就加鎖來保證線程安全,兩種情況:一種是鏈表形式就直接遍歷到尾端插入,一種是紅黑樹就按照紅黑樹結構插入;
5.如果該鏈表的數量大於閥值 8,就要先轉換成紅黑樹的結構,break 再一次進入循環
6.如果添加成功就調用 addCount() 方法統計 size,並且檢查是否需要擴容

④、擴容方法 transfer():默認容量為 16,擴容時,容量變為原來的兩倍
helpTransfer():調用多個工作線程一起幫助進行擴容,這樣的效率就會更高。

⑤、獲取對象時(get()方法):
1.計算 hash 值,定位到該 table 索引位置,如果是首結點符合就返回;
2.如果遇到擴容時,會調用標記正在擴容結點 ForwardingNode.find()方法,查找該結點,匹配就返回;
3.以上都不符合的話,就往下遍歷結點,匹配就返回,否則最后就返回 null。

17、 ConcurrentHashMap 的並發度是什么?

A:程序運行時能夠同時更新 ConccurentHashMap 且不產生鎖競爭的最大線程數。默認為 16,且可以在構造函數中設置。當用戶設置並發度時,ConcurrentHashMap 會使用大於等於該值的最小2冪指數作為實際並發度(假如用戶設置並發度為17,實際並發度則為32)



作者:TinyDolphin
鏈接:https://www.jianshu.com/p/75adf47958a7
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權並注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM