1.map定義
map是鍵-值對的集合。map類型通常可以理解為關聯數組:可使用鍵作為下標來獲取一個值,正如內置數組類型一樣。而關聯的本質在於元素的值與某個特定的鍵相關聯,而並非通過元素在數組中的位置來獲取。
<1>map模板原型:
template < class Key, class T, class Compare = less<Key>,
class Allocator = allocator<pair<const Key,T> > > class map;
key:關鍵值的類型。在map對象中的每個元素是通過該關鍵值唯一確定元素的。
T:映射值的類型。在map中的每個元素是用來儲存一些數據作為其映射值。
compare:Comparison類:A類鍵的類型,它有兩個參數,並返回一個bool。表達comp(A,B),comp是這比較類A和B是關鍵值的對象,應返回true,如果是在早先的立場比B放置在一個嚴格弱排序操作。這可以是一個類實現一個函數調用運算符或一個函數的指針(見一個例子構造)。默認的對於<KEY>,返回申請小於操作符相同的默認值(A <B)。 Map對象使用這個表達式來確定在容器中元素的位置。以下這個規則在任何時候都排列在map容器中的所有元素。
Allocator:用於定義存儲分配模型分配器對象的類型。默認情況下,分配器類模板,它定義了最簡單的內存分配模式,是值獨立的
<2>map模板參數
map<Key, Data, Compare, Alloc>
<3>map的詳細用法可參考:http://blog.csdn.net/bat603/article/details/1456141
2.map的實現機制
C++ STL 之所以得到廣泛的贊譽,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封裝了許多復雜的數據結構算法和大量常用數據結構操作。vector封裝數組,list封裝了鏈表,map和 set封裝了二叉樹等,在封裝這些數據結構的時候,STL按照程序員的使用習慣,以成員函數方式提供的常用操作,如:插入、排序、刪除、查找等。讓用戶在 STL使用過程中,並不會感到陌生。
C++ STL中標准關聯容器set, multiset, map, multimap內部采用的就是一種非常高效的平衡檢索二叉樹:紅黑樹,也成為RB樹(Red-Black Tree)。RB樹的統計性能要好於一般的平衡二叉樹(有些書籍根據作者姓名,Adelson-Velskii和Landis,將其稱為AVL-樹),所以被STL選擇作為了關聯容器的內部結構。本文並不會介紹詳細AVL樹和RB樹的實現以及他們的優劣,關於RB樹的詳細實現參看紅黑樹: 理論與實現(理論篇)。本文針對開始提出的幾個問題的回答,來向大家簡單介紹map和set的底層數據結構。
<1>為何map和set的插入刪除效率比用其他序列容器高?
之所以效率高,是因為對於關聯容器來說,不需要做內存拷貝和內存移動。map和set容器內所有元素都是以節點的方式來存儲,其節點結構和鏈表差不多,指向父節點和子節點。結構圖可能如下:
A / \ B C / \ / \ D E F G
因此插入的時候只需要稍做變換,把節點的指針指向新的節點就可以了。刪除的時候類似,稍做變換后把指向刪除節點的指針指向其他節點就OK了。這里的一切操作就是指針換來換去,和內存移動沒有關系。
<2>為何每次insert之后,以前保存的iterator不會失效?
看見了上面答案的解釋,你應該已經可以很容易解釋這個問題。iterator這里就相當於指向節點的指針,內存沒有變,指向內存的指針怎么會失效呢(當然 被刪除的那個元素本身已經失效了)。相對於vector來說,每一次刪除和插入,指針都有可能失效,調用push_back在尾部插入也是如此。因為為了保證內部數據的連續存放,iterator指向的那塊內存在刪除和插入過程中可能已經被其他內存覆蓋或者內存已經被釋放了。即使時push_back的時 候,容器內部空間可能不夠,需要一塊新的更大的內存,只有把以前的內存釋放,申請新的更大的內存,復制已有的數據元素到新的內存,最后把需要插入的元素放 到最后,那么以前的內存指針自然就不可用了。特別時在和find等算法在一起使用的時候,牢記這個原則:不要使用過期的iterator。
<3>為何map和set不能像vector一樣有個reserve函數來預分配數據?
究其原理來說時,引起它的原因在於在map和set內部存儲的已經不是元素本身了,而是包含元素的節點。也就是說map內部使用的Alloc並不是map<Key, Data, Compare, Alloc>聲明的時候從參數中傳入的Alloc。例如:
map<int, int, less<int>, Alloc<int> > intmap;
這時候在intmap中使用的allocator並不是Alloc<int>, 而是通過了轉換的Alloc,具體轉換的方法時在內部通過Alloc<int>::rebind重新定義了新的節點分配器,詳細的實現參看徹底學習STL中的Allocator。其實你就記住一點,在map和set內面的分配器已經發生了變化,reserve方法你就不要奢望了。
<4>當數據元素增多時(10000和20000個比較),map和set的插入和搜索速度變化如何?
在map和set中查找是使用二分查找,也就是說,如果有16個元素,最多需要比較4次就能找到結 果,有32個元素,最多比較5次。那么有10000個呢?最多比較的次數為log10000,最多為14次,如果是20000個元素呢?最多不過15次。 看見了吧,當數據量增大一倍的時候,搜索次數只不過多了1次,多了1/14的搜索時間而已。你明白這個道理后,就可以安心往里面放入元素了。
最后,對於map和set Winter還要提的就是它們和一個c語言包裝庫的效率比較。在許多unix和linux平台下,都有一個庫叫isc,里面就提供類似於以下聲明的函數:
void tree_init(void **tree); void *tree_srch(void **tree, int (*compare)(), void *data); void tree_add(void **tree, int (*compare)(), void *data, void (*del_uar)()); int tree_delete(void **tree, int (*compare)(), void *data,void (*del_uar)()); int tree_trav(void **tree, int (*trav_uar)()); void tree_mung(void **tree, void (*del_uar)());
許多人認為直接使用這些函數會比STL map速度快,因為STL map中使用了許多模板什么的。其實不然,它們的區別並不在於算法,而在於內存碎片。如果直接使用這些函數,你需要自己去new一些節點,當節點特別多, 而且進行頻繁的刪除和插入的時候,內存碎片就會存在,而STL采用自己的Allocator分配內存,以內存池的方式來管理這些內存,會大大減少內存碎 片,從而會提升系統的整體性能。本文原作者在自己的系統中做過測試,把以前所有直接用isc函數的代碼替換成map,程序速度基本一致。當時間運行很長時間后(例如后台服務程序),map的優勢就會體現出來。從另外一個方面講,使用map會大大降低你的編碼難度,同時增加程序的可讀性。何樂而不為?