散列表
Python 用散列表來實現 dict。散列表其實是一個稀疏數組(總是有空白元素的數組稱為稀疏數組)。在一般書中,散列表里的單元通常叫做表元(bucket)。在 dict 的散列表當中,每個鍵值對都占用一個表元,每個表元都有兩個部分,一個是對鍵的引用,一個是對值的引用。因為每個表元的大小一致,所以可以通過偏移量來讀取某個表元。
Python 會設法保證大概還有三分之一的表元是空的,當快要達到這個閥值的時候,會進行擴容,將原散列表復制到一個更大的散列表里。
如果要把一個對象放入到散列表里,就先要計算這個元素鍵的散列值。這就要求鍵(key)必須是可散列的。
一個可散列的對象必須滿足以下條件:
- 支持
hash()
函數,並且通過hash()
方法所得到的散列值是不變的。 - 支持通過
eq()
方法來檢測相等性。 - 若
a == b
為真,則hash(a) == hash(b)
也為真。
散列表的算法:
為了獲取鍵 search_key
所對應的值 search_value
,Python 會首先調用 hash(search_key)
計算 search_key
的散列值,把這個值最低的幾位數字當作偏移量,在散列表里查找表元(具體取幾位,得看當前散列表的大小)。若找到的表元是空的,則拋出 KeyError
異常;若不為空,則表元里會有一對 found_key
:found_value
,檢驗 search_key
和 found_key
是否相等,若相等,則返回 found_value
。若不相等,這種情況稱為散列沖突。
為了解決散列沖突,算法會在散列值中另外再取幾位,然后用特殊的方法處理一下,把得到的新數值作為偏移量在散列表中查找表元,若找到的表元是空的,則同樣拋出 KeyError 異常;若非空,則比較鍵是否一致,一致則返回對應的值;若又發現散列沖突,則重復以上步驟。
添加新元素跟上面的過程幾乎一樣,只不過在發現空表元的時候會放入這個新元素,不為空則為散列沖突,繼續查找。
為什么字典是無序的
當往 dict 里添加新元素並且發生了散列沖突的時候,新元素可能會被安排存放到另一個位置。於是就會發生下面的情況:dict([key1, value1], [key2, value2])
和 dict([key2, value2], [key1, value1])
兩個字典,在進行比較的時候是相等的,但如果 key1 和 key2 散列沖突,則這兩個鍵在字典里的順序是不一樣的(因為添加的順序不一樣,先添加的先占據第一次散列值的位置,后添加的)。
無論何時,往 dict 里添加新的鍵,Python 解析器都可能做出為字典擴容的決定。擴容導致的結果就是要新建一個更大的散列表,並把字典里已有的元素添加到新的散列表里。這個過程中可能發生新的散列沖突,導致新散列表中鍵的次序變化。
如果在迭代一個字典的同時往里面添加新的鍵,會發生什么?不湊巧擴容了,不湊巧鍵的次序變了,然后就 orz 了。
總結
散列表是一個在時間和空間上做出權衡的經典例子。如果沒有空間(內存)的限制,那么可以直接將鍵作為數組的索引。那么所有的查找時間復雜度為 O(1);如果沒有時間的限制,那么可以直接用數組,這樣只需要很少的內存。