前言

問題1：python中的字典到底是有序還是無序
問題2：python中字典的效率如何

python字典底層原理

在Python 3.5以前，字典是不能保證順序的，鍵值對A先插入字典，鍵值對B后插入字典，但是當你打印字典的Keys列表時，你會發現B可能在A的前面。

但是從Python 3.6開始，字典是變成有順序的了。你先插入鍵值對A，后插入鍵值對B，那么當你打印Keys列表的時候，你就會發現B一定在A的后面。

不僅如此，從Python 3.6開始，下面的三種遍歷操作，效率要高於Python 3.5之前：

for key in dict1
 
for value in dict1.values()
 
for key, value in dict1.items()

從Python 3.6開始，字典占用內存空間的大小，是字典里面鍵值對的個數，只有原來的30%~95%。
Python 3.6到底對字典做了什么優化呢？為了說明這個問題，我們需要先來說一說，在Python 3.5之前，字典的底層原理。

python3.5之前字典的底層原理

當我們初始化一個空字典的時候，CPython的底層會初始化一個二維數組，這個數組有8行，3列，如下面的示意圖所示：

my_dict = {}
 
'''
此時的內存示意圖
[
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---]
]
'''

現在，我們往字典里面添加一個數據：

my_dict['name'] = 'jkc'
 
'''
此時的內存示意圖
[
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [1278649844881305901, 指向name的指針, 指向jkc的指針],
  [---, ---, ---],
  [---, ---, ---]
]
'''

這里解釋一下，為什么添加了一個鍵值對以后，內存變成了這個樣子：
首先我們調用Python 的hash函數，計算name這個字符串在當前運行時的hash值：

In [1]: hash('name')
Out[1]: 1278649844881305901

特別注意，我這里強調了『當前運行時』，這是因為，Python自帶的這個hash函數，和我們傳統上認為的Hash函數是不一樣的。Python自帶的這個hash函數計算出來的值，只能保證在每一個運行時的時候不變，但是當你關閉Python再重新打開，那么它的值就可能會改變，如下圖所示：

假設在某一個運行時里面，hash('name')的值為1278649844881305901。現在我們要把這個數對8取余數：

In [2]: 1278649844881305901 % 8
Out[2]: 5

余數為5，那么就把它放在剛剛初始化的二維數組中，下標為5的這一行。由於name和jkc是兩個字符串，所以底層C語言會使用兩個字符串變量存放這兩個值，然后得到他們對應的指針。於是，我們這個二維數組下標為5的這一行，第一個值為name的hash值，第二個值為name這個字符串所在的內存的地址（指針就是內存地址），第三個值為jkc這個字符串所在的內存的地址。

現在，我們再來插入兩個鍵值對：

my_dict['age'] = 26
my_dict['salary'] = 999999
 
'''
此時的內存示意圖
[
  [-4234469173262486640, 指向salary的指針, 指向999999的指針],
  [1545085610920597121, 執行age的指針, 指向26的指針],
  [---, ---, ---],
  [---, ---, ---],
  [---, ---, ---],
  [1278649844881305901, 指向name的指針, 指向jkc的指針],
  [---, ---, ---],
  [---, ---, ---]
]
'''

那么字典怎么讀取數據呢？首先假設我們要讀取age對應的值。
此時，Python先計算在當前運行時下面，age對應的Hash值是多少：

In [2]: hash('age')
Out[2]: 1545085610920597121

現在這個hash值對8取余數：

In [2]: 1545085610920597121 % 8
Out[2]: 1

余數為1，那么二維數組里面，下標為1的這一行就是需要的鍵值對。直接返回這一行第三個指針對應的內存中的值，就是age對應的值26。
當你要循環遍歷字典的Key的時候，Python底層會遍歷這個二維數組，如果當前行有數據，那么就返回Key指針對應的內存里面的值。如果當前行沒有數據，那么就跳過。所以總是會遍歷整個二維數組的每一行。
每一行有三列，每一列占用8byte的內存空間，所以每一行會占用24byte的內存空間。
由於Hash值取余數以后，余數可大可小，所以字典的Key並不是按照插入的順序存放的。
注意，這里我省略了與本文沒有太大關系的兩個點：

1.開放尋址，當兩個不同的Key，經過Hash以后，再對8取余數，可能余數會相同。此時Python為了不覆蓋之前已有的值，就會使用開放尋址技術重新尋找一個新的位置存放這個新的鍵值對。
2.當字典的鍵值對數量超過當前數組長度的2/3時，數組會進行擴容，8行變成16行，16行變成32行。長度變了以后，原來的余數位置也會發生變化，此時就需要移動原來位置的數據，導致插入效率變低。

python3.6之后字典的底層原理

在Python 3.6以后，字典的底層數據結構發生了變化，現在當你初始化一個空的字典以后，它在底層是這樣的：

my_dict = {}
 
'''
此時的內存示意圖
indices = [None, None, None, None, None, None, None, None]
 
entries = []
'''

當你初始化一個字典以后，Python單獨生成了一個長度為8的一維數組。然后又生成了一個空的二維數組。

現在，我們往字典里面添加一個鍵值對：

my_dict['name'] = 'jkc'
 
'''
此時的內存示意圖
indices = [None, 0, None, None, None, None, None, None]
 
entries = [[-5954193068542476671, 指向name的指針, 執行jkc的指針]]
'''

為什么內存會變成這個樣子呢？我們來一步一步地看：

在當前運行時，name這個字符串的hash值為-5954193068542476671，這個值對8取余數是1：

>>> hash('name')
-5954193068542476671
>>> hash('name') % 8
1

所以，我們把indices這個一維數組里面，下標為1的位置修改為0。

這里的0是什么意思呢？0是二位數組entries的索引。現在entries里面只有一行，就是我們剛剛添加的這個鍵值對的三個數據：name的hash值、指向name的指針和指向jkc的指針。所以indices里面填寫的數字0，就是剛剛我們插入的這個鍵值對的數據在二位數組里面的行索引。

好，現在我們再來插入兩條數據：

my_dict['address'] = 'xxx'
my_dict['salary'] = 999999
 
'''
此時的內存示意圖
indices = [1, 0, None, None, None, None, 2, None]
 
entries = [
  [-5954193068542476671, 指向name的指針, 執行jkc的指針],
  [9043074951938101872, 指向address的指針，指向xxx的指針],
  [7324055671294268046, 指向salary的指針, 指向999999的指針]
]
'''

現在如果我要讀取數據怎么辦呢？假如我要讀取salary的值，那么首先計算salary的hash值，以及這個值對8的余數：

>>> hash('salary')
7324055671294268046
>>> hash('salary') % 8
6

那么我就去讀indices下標為6的這個值。這個值為2.

然后再去讀entries里面，下標為2的這一行的數據，也就是salary對應的數據了。

新的這種方式，當我要插入新的數據的時候，始終只是往entries的后面添加數據，這樣就能保證插入的順序。當我們要遍歷字典的Keys和Values的時候，直接遍歷entries即可，里面每一行都是有用的數據，不存在跳過的情況，減少了遍歷的個數。

老的方式，當二維數組有8行的時候，即使有效數據只有3行，但它占用的內存空間還是 8 * 24 = 192 byte。但使用新的方式，如果只有三行有效數據，那么entries也就只有3行，占用的空間為3 * 24 =72 byte，而indices由於只是一個一維的數組，只占用8 byte，所以一共占用 80 byte。內存占用只有原來的41%。

字典的用法總結

1.鍵必須可散列
- (1) 數字、字符串、元組，都是可散列的。
- (2) 自定義對象需要支持下面三點：
  - ①支持 hash()函數
  - ②支持通過__eq__()方法檢測相等性。
  - ③若 a==b 為真，則 hash(a)==hash(b)也為真。
2.字典在內存中開銷巨大，典型的空間換時間。
3.鍵查詢速度很快
4.往字典里面添加新建可能導致擴容，導致散列表中鍵的次序變化。因此，不要在遍歷字典的同時進行字典的修改。

參考：https://www.cnblogs.com/songyifan427/p/11198719.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python底層原理 Python字典的實現原理 python列表底層實現原理 Python字典對象實現原理 python中的for循環底層原理詳解+python中for循環的原理【T-SQL進階】02.理解SQL查詢的底層原理 HashMap底層實現原理 hashMap底層的實現原理 HashMap的底層原理 synchronized底層原理