談談HashMap與HashTable


談談HashMap與HashTable

HashMap

我們一直知道HashMap是非線程安全的,HashTable是線程安全的,可這是為什么呢?先聊聊HashMap吧,想要了解它為什么是非線程安全的,我們得從它的原理着手。

jdk7中的HashMap

HashMap底層維護一個數組,數組中的每一項都是Entry

transient Entry<K,V>[] table;

我們向HashMap放置的對象實際上是放置在Entry數組中

而Map中的key、value則以Entry的形式存放在數組中

private static class Entry<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Entry<K,V> next;

而這個Entry應該放在數組的哪一個位置上(這個位置通常稱為位桶或者hash桶,即hash值相同的Entry會放在同一位置,用鏈表相連),是通過key的hashCode來計算的。

當兩個key通過hashcode計算是相同的時候,就會發生hash沖突,HashMap解決hash沖突的辦法是使用鏈表。

簡而言之就是,jdk1.7的情況:如果該位置沒有對象,則將對象直接放到數組中,如果該位置有對象,順着存在此對象的鏈找(Map中不允許存在相同的key和value),如果不存在相同的,第一種情況:如果該鏈表擴容了,則把對象放入到數組中,原先存放在數組中的數據放置該對象的后面。第二種情況:如果該鏈表沒有擴容,則直接放到鏈表的最后。如果存在相同的,則進行替換。jdk1.8的情況:如果該位置沒有對象,則將對象直接放到數組中,如果該位置有對象,順着存在此對象的鏈找(Map中不允許存在相同的key和value),如果不存在相同的,則直接放到鏈表的最后。如果存在相同的,則進行替換。

當HashMap中的元素越來越多的時候,hash沖突的幾率也就越來越高,因為數組的長度是固定的。所以為了提高查詢的效率,就要對HashMap的數組進行擴容,而在HashMap數組擴容之后,最消耗性能的點就出現了:原數組中的數據必須重新計算其在新數組中的位置,並放進去,這就是resize。

值得注意的是,HashMap中key和value都允許有null值存在,不過只允許一個null的key,可以有多個null值的value。

jdk8中的HashMap

在JDK1.7的部分就只有鏈表結構,但是由於鏈表過長的時候查找元素時間較長,在JDK1.8的時候加入了紅黑樹,當鏈表超過一定長度之后,鏈表就會轉換成紅黑樹,便於查找和插入,在最壞的情況下,鏈表的時間復雜度是O(n),紅黑樹是O(logn),這樣會提高HashMap的效率。

在jdk8中,當同一個hash值得節點數大於8的時候,將不再以鏈表的形式存儲了,而是會調整成一顆紅黑樹。

static final int TREEIFY_THRESHOLD = 8;

從JDK1.8開始,HashMap的元素是以Node形式存在,主要結構如下:

 static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;

JDK中Entry的名字變成了Node,原因是和紅黑樹的實現TreeNode相關聯。

可以看一下jdk8中的put方法,跟jdk7相比還是做了很大的改變。

    public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //如果當前map中無數據,執行resize方法。並且返回n
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //如果要插入的鍵值對要存放的這個位置剛好沒有元素,那么把他封裝成Node對象,放在這個位置上就可以了
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        //如果這個元素的key與要插入的一樣,那么就替換一下
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
         //如果當前節點是TreeNode類型的數據,存儲的鏈表已經變為紅黑樹了,執行putTreeVal方法去存入
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
         //還是鏈表狀態
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    //判斷是否要轉成紅黑樹
                    if (binCount >= TREEIFY_THRESHOLD - 1) 
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    //判斷閥值,決定是否擴容
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

HashMap的多線程不安全

個人覺得HashMap在並發時可能出現的問題主要是兩方面,首先如果多個線程同時使用put方法添加元素,而且假設正好存在兩個put的key發生了碰撞(hash值一樣),那么根據HashMap的實現,這兩個key會添加到數組的同一個位置,這樣最終就會發生其中一個線程的put的數據被覆蓋。第二就是如果多個線程同時檢測到元素個數超過數組大小*loadFactor,這樣就會發生多個線程同時對Node數組進行擴容,都在重新計算元素位置以及復制數據,但是最終只有一個線程擴容后的數組會賦給表,也就是說其他線程的都會丟失,並且各自線程put的數據也丟失。

對第二種不安全的情況進行分析:HashMap的死循環

由於插入過程,新插入元素總是插入到頭部,源碼如下:

void transfer(Entry[] newTable)  {  
Entry[] src = table;  
int newCapacity = newTable.length;   
for (int j = 0; j < src.length; j++) {  
    Entry<K,V> e = src[j];  
    if (e != null) {  
        src[j] = null; 
        //這里在做插入的過程中,總是將新插入元素放在鏈表頭 
        do {  
            Entry<K,V> next = e.next;  
            int i = indexFor(e.hash, newCapacity);  
            e.next = newTable[i];  
            newTable[i] = e;  
            e = next;  
        } while (e != null);  
    }  
}  
}

解析代碼:

e=3

Entry<K,V> next = e.next;  保存了3.next也就是7

e.next = newTable[i];  表示3后面跟着的是null,newTable表示重新建立的一張表

newTable[i] = e; 表示在表的下標的那個位置放的是e(也就是3),也就說下圖中的下標為3的地方放了key=3這個對象

e=next;表示e=7了

第二次循環--

Entry<K,V> next = e.next;  保存了7.next也就是5

e.next = newTable[i];   表示7.next=3了,說明3放到7的尾巴上去了

newTable[i] = e;    表示下圖中的下標為3的地方放了key=7這個對象

e=next;表示e=5了

又開啟了再一次的循環。

為什么會發生死循環呢?

解析:多線程情況下,多個線程同時檢測到對數組進行擴容

當線程1正好插入了3(e=3),並且保存了e.next(也就7)

CPU正好切到了線程2,並且完成了擴容,如上圖所示。

之后我們對線程1繼續進行操作,把7也插進線程1中,可以看到如下所示:

但是由於受到線程2的影響,e=7,e.next=3,我們后面又得插入3了,然后插入3之后,因為3.next=7,所以我們又插入7,這樣就形成了死循環。

這個問題在JDK1.8中得到了解決,它用了新的索引插入方式

Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//還是原索引位置
if ((e.hash & oldCap) == 0) {
    if (loTail == null)
        loHead = e;
    else
        loTail.next = e;
    loTail = e;
}
//原索引+ oldCap位置
else {
    if (hiTail == null)
        hiHead = e;
    else
        hiTail.next = e;
    hiTail = e;
    }
} while ((e = next) != null);
if (loTail != null) {
   loTail.next = null;
   newTab[j] = loHead;
 }
if (hiTail != null) {
   hiTail.next = null;
newTab[j + oldCap] = hiHead;
} 

由於擴容是在原容量基礎上乘以2,那么hash碼校驗的時候會比原來的多一位,那么只需要比較這個位置是0還是1即可,是1那么就在原索引位置向后位移原容量大小即可,是0就不動。

HashTable

Hashtable是線程安全的,我們可以看看它的源碼

public synchronized V put(K key, V value) {
    // Make sure the value is not null
    if (value == null) {
        throw new NullPointerException();
    }

    // Makes sure the key is not already in the hashtable.
    Entry<?,?> tab[] = table;
    int hash = key.hashCode();
    int index = (hash & 0x7FFFFFFF) % tab.length;
    @SuppressWarnings("unchecked")
    Entry<K,V> entry = (Entry<K,V>)tab[index];
    for(; entry != null ; entry = entry.next) {
        if ((entry.hash == hash) && entry.key.equals(key)) {
            V old = entry.value;
            entry.value = value;
            return old;
        }
    }

    addEntry(hash, key, value, index);
    return null;
}

在主要的函數上都加了synchronize同步關鍵字,所有線程競爭同一把鎖,所以線程安全。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM