Java多線程之同步集合和並發集合
不管是同步集合還是並發集合他們都支持線程安全,他們之間主要的區別體現在性能和可擴展性,還有他們如何實現的線程安全。
同步集合類
- Hashtable
- Vector
- 同步集合包裝類,Collections.synchronizedMap()和Collections.synchronizedList()
並發集合類
- ConcurrentHashMap
- CopyOnWriteArrayList
- CopyOnWriteHashSet
性能
同步集合比並發集合會慢得多,主要原因是鎖,同步集合會對整個May或List加鎖
並發集合的實現原理
- ConcurrentHashMap:把整個Map 划分成幾個片段,只對相關的幾個片段上鎖,同時允許多線程訪問其他未上鎖的片段。
- CopyOnWriteArrayList:允許多個線程以非同步的方式讀,當有線程寫的時候它會將整個List復制一個副本給它。如果在讀多寫少這種對並發集合有利的條件下使用並發集合,這會比使用同步集合更具有可伸縮性。
並發集合的使用建議
- 一般不需要多線程的情況,只用到HashMap、ArrayList,只要真正用到多線程的時候就一定要考慮同步。所以這時候才需要考慮同步集合或並發集合。
ConcurrentHashMap實現原理
ConcurrentHashMap是由Segment數組結構和HashEntry數組結構組成。Segment是一種可重入鎖ReentrantLock,在ConcurrentHashMap里扮演鎖的角色,HashEntry則用於存儲鍵值對數據。一個ConcurrentHashMap里包含一個Segment數組,Segment的結構和HashMap類似,是一種數組和鏈表結構, 一個Segment里包含一個HashEntry數組,每個HashEntry是一個鏈表結構的元素, 每個Segment守護者一個HashEntry數組里的元素,當對HashEntry數組的數據進行修改時,必須首先獲得它對應的Segment鎖。
什么是CopyOnWrite容器
CopyOnWrite容器即寫時復制的容器。通俗的理解是當我們往一個容器添加元素的時候,不直接往當前容器添加,而是先將當前容器進行Copy,復制出一個新的容器,然后新的容器里添加元素,添加完元素之后,再將原容器的引用指向新的容器。這樣做的好處是我們可以對CopyOnWrite容器進行並發的讀,而不需要加鎖,因為當前容器不會添加任何元素。所以CopyOnWrite容器也是一種讀寫分離的思想,讀和寫不同的容器。
CopyOnWriteArrayList的實現原理
可以發現在添加的時候是需要加鎖的,否則多線程寫的時候會Copy出N個副本出來。
- public boolean add(T e) {
- final ReentrantLock lock = this.lock;
- lock.lock();
- try {
- Object[] elements = getArray();
- int len = elements.length;
- // 復制出新數組
- Object[] newElements = Arrays.copyOf(elements, len + 1);
- // 把新元素添加到新數組里
- newElements[len] = e;
- // 把原數組引用指向新數組
- setArray(newElements);
- return true;
- } finally {
- lock.unlock();
- }
- }
- final void setArray(Object[] a) {
- array = a;
- }
讀的時候不需要加鎖,如果讀的時候有多個線程正在向ArrayList添加數據,讀還是會讀到舊的數據,因為寫的時候不會鎖住舊的ArrayList。
- public E get(int index) {
- return get(getArray(), index);
- }
JDK中並沒有提供CopyOnWriteMap,我們可以參考CopyOnWriteArrayList來實現一個,基本代碼如下:
- import java.util.Collection;
- import java.util.Map;
- import java.util.Set;
- public class CopyOnWriteMap<K, V> implements Map<K, V>, Cloneable {
- private volatile Map<K, V> internalMap;
- public CopyOnWriteMap() {
- internalMap = new HashMap<K, V>();
- }
- public V put(K key, V value) {
- synchronized (this) {
- Map<K, V> newMap = new HashMap<K, V>(internalMap);
- V val = newMap.put(key, value);
- internalMap = newMap;
- return val;
- }
- }
- public V get(Object key) {
- return internalMap.get(key);
- }
- public void putAll(Map<? extends K, ? extends V> newData) {
- synchronized (this) {
- Map<K, V> newMap = new HashMap<K, V>(internalMap);
- newMap.putAll(newData);
- internalMap = newMap;
- }
- }
- }
CopyOnWrite的應用場景
CopyOnWrite並發容器用於讀多寫少的並發場景。比如白名單,黑名單,商品類目的訪問和更新場景,假如我們有一個搜索網站,用戶在這個網站的搜索框中,輸入關鍵字搜索內容,但是某些關鍵字不允許被搜索。這些不能被搜索的關鍵字會被放在一個黑名單當中,黑名單每天晚上更新一次。當用戶搜索時,會檢查當前關鍵字在不在黑名單當中,如果在,則提示不能搜索。實現代碼如下:
- package com.ifeve.book;
- import java.util.Map;
- import com.ifeve.book.forkjoin.CopyOnWriteMap;
- /**
- * 黑名單服務
- *
- * @author fangtengfei
- *
- */
- public class BlackListServiceImpl {
- private static CopyOnWriteMap<String, Boolean> blackListMap = new CopyOnWriteMap<String, Boolean>(
- 1000);
- public static boolean isBlackList(String id) {
- return blackListMap.get(id) == null ? false : true;
- }
- public static void addBlackList(String id) {
- blackListMap.put(id, Boolean.TRUE);
- }
- /**
- * 批量添加黑名單
- *
- * @param ids
- */
- public static void addBlackList(Map<String,Boolean> ids) {
- blackListMap.putAll(ids);
- }
- }
注意兩點:
- 減少擴容開銷。根據實際需要,初始化CopyOnWriteMap的大小,避免寫時CopyOnWriteMap擴容的開銷。
- 使用批量添加。因為每次添加,容器每次都會進行復制,所以減少添加次數,可以減少容器的復制次數。如使用上面代碼里的addBlackList方法。
CopyOnWrite的缺點
內存占用問題
因為CopyOnWrite的寫時復制機制,所以在進行寫操作的時候,內存里會同時駐扎兩個對象的內存,舊的對象和新寫入的對象(注意:在復制的時候只是復制容器里的引用,只是在寫的時候會創建新對象添加到新容器里,而舊容器的對象還在使用,所以有兩份對象內存)。如果這些對象占用的內存比較大,比如說200M左右,那么再寫入100M數據進去,內存就會占用300M,那么這個時候很有可能造成頻繁的Yong GC和Full GC。之前我們系統中使用了一個服務由於每晚使用CopyOnWrite機制更新大對象,造成了每晚15秒的Full GC,應用響應時間也隨之變長。
針對內存占用問題,可以通過壓縮容器中的元素的方法來減少大對象的內存消耗,比如,如果元素全是10進制的數字,可以考慮把它壓縮成36進制或64進制。或者不使用CopyOnWrite容器,而使用其他的並發容器,如ConcurrentHashMap。
數據一致性問題
CopyOnWrite容器只能保證數據的最終一致性,不能保證數據的實時一致性。所以如果你希望寫入的的數據,馬上能讀到,請不要使用CopyOnWrite容器。