【Python】說說字典和散列表，散列沖突的解決原理

本文轉載自查看原文 2018-10-09 10:36 1688 Python

散列表

Python 用散列表來實現 dict。散列表其實是一個稀疏數組（總是有空白元素的數組稱為稀疏數組）。在一般書中，散列表里的單元通常叫做表元（bucket）。在 dict 的散列表當中，每個鍵值對都占用一個表元，每個表元都有兩個部分，一個是對鍵的引用，一個是對值的引用。因為每個表元的大小一致，所以可以通過偏移量來讀取某個表元。

Python 會設法保證大概還有三分之一的表元是空的，當快要達到這個閥值的時候，會進行擴容，將原散列表復制到一個更大的散列表里。

如果要把一個對象放入到散列表里，就先要計算這個元素鍵的散列值。這就要求鍵（key）必須是可散列的。

一個可散列的對象必須滿足以下條件：

支持 hash() 函數，並且通過 hash() 方法所得到的散列值是不變的。
支持通過 eq() 方法來檢測相等性。
若 a == b 為真，則 hash(a) == hash(b) 也為真。

散列表的算法：

為了獲取鍵 search_key 所對應的值 search_value，Python 會首先調用 hash(search_key) 計算 search_key 的散列值，把這個值最低的幾位數字當作偏移量，在散列表里查找表元（具體取幾位，得看當前散列表的大小）。若找到的表元是空的，則拋出 KeyError 異常；若不為空，則表元里會有一對 found_key:found_value，檢驗 search_key 和 found_key 是否相等，若相等，則返回 found_value。若不相等，這種情況稱為散列沖突。

為了解決散列沖突，算法會在散列值中另外再取幾位，然后用特殊的方法處理一下，把得到的新數值作為偏移量在散列表中查找表元，若找到的表元是空的，則同樣拋出 KeyError 異常；若非空，則比較鍵是否一致，一致則返回對應的值；若又發現散列沖突，則重復以上步驟。

添加新元素跟上面的過程幾乎一樣，只不過在發現空表元的時候會放入這個新元素，不為空則為散列沖突，繼續查找。

為什么字典是無序的

當往 dict 里添加新元素並且發生了散列沖突的時候，新元素可能會被安排存放到另一個位置。於是就會發生下面的情況：dict([key1, value1], [key2, value2]) 和 dict([key2, value2], [key1, value1]) 兩個字典，在進行比較的時候是相等的，但如果 key1 和 key2 散列沖突，則這兩個鍵在字典里的順序是不一樣的（因為添加的順序不一樣，先添加的先占據第一次散列值的位置，后添加的）。

無論何時，往 dict 里添加新的鍵，Python 解析器都可能做出為字典擴容的決定。擴容導致的結果就是要新建一個更大的散列表，並把字典里已有的元素添加到新的散列表里。這個過程中可能發生新的散列沖突，導致新散列表中鍵的次序變化。

如果在迭代一個字典的同時往里面添加新的鍵，會發生什么？不湊巧擴容了，不湊巧鍵的次序變了，然后就 orz 了。

總結

散列表是一個在時間和空間上做出權衡的經典例子。如果沒有空間（內存）的限制，那么可以直接將鍵作為數組的索引。那么所有的查找時間復雜度為 O(1)；如果沒有時間的限制，那么可以直接用數組，這樣只需要很少的內存。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python字典實現原理-哈希函數-解決哈希沖突方法散列函數之雙重散列算法解決沖突問題哈希表（散列表）沖突解決方法處理散列沖突的方法 HashMap的實現原理--鏈表散列散列表的基本原理與實現 JavaScript數據結構——字典和散列表的實現 Python用2個列表生成字典 python列表內字典去重 python列表和字典的迭代