用最復雜的方式學會數組(Python實現動態數組)


Python序列類型的本質

在本博客中,我們將學習探討Python的各種“序列”類,內置的三大常用數據結構——列表類(list)、元組類(tuple)和字符串類(str)的本質。

不知道你發現沒有,這些類都有一個很明顯的共性,都可以用來保存多個數據元素,最主要的功能是:每個類都支持下標(索引)訪問該序列的元素,比如使用語法 Seq[i]。其實上面每個類都是使用 數組 這種簡單的數據結構表示。

但是熟悉Python的讀者可能知道這3種數據結構又有一些不同:比如元組和字符串是不能修改的,列表可以修改。

計算機內存中的數組結構

計算機體系結構中,我們知道計算機主存由位信息組成,這些位通常被歸類成更大的單元,這些單元則取決於精准的系統架構。一個典型的單元就是一個字節,相當於8位。

計算機系統擁有龐大數量的存儲字節,那么如何才能找到我們的信息存在哪個字節呢?答案就是大家平時熟知的 存儲地址 。基於存儲地址,主存中的任何字節都能被有效的訪問。實際上,每個存儲字節都和一個作為其地址的唯一二進制數字相關聯。如下圖中,每個字節均被指定了存儲地址:

一般來說,編程語言記錄標識符和其關聯值所存儲的地址之間的關系。比如,當我們聲明標識符 \(x\) 就有可能和存儲器中的某一值相關聯,而標識符 \(y\)就可能和其他的值相關聯。一組相關的變量能夠一個接一個地存儲在計算機存儲器的一塊連續區域內。我們將這種方式稱為 數組

我們來看Python中的例子,一個文本字符串 HELLO 是以一列有序字符的形式存儲的,假定該字符串的每個Unicode字符需要兩個字節的存儲空間。最下面的數字就是該字符串的索引值。

我們可以看到,數組可以存儲多個值而無需構造具有特定索引的多個變量來指定其中的每個項目,並且幾乎在所有編程語言(例如C、Java、C#、C++)中使用,但是Python更具有優勢。Python在構建列表時,熟悉的讀者可能知道,不需要預先定義數組或列表的大小,相反,在Python中,列表具有動態性質,我們可以不斷的往列表中添加我們想要的數據元素。接下來,讓我們看看Python列表的知識(已經熟悉的讀者可以快速瀏覽或者跳過)。

Python列表

Python列表的操作

  • 創建列表的語法格式:

[ele1, ele2, ele3, ele4, ...]

  • 創建元組的語法格式:

(ele1, ele2, ele3, ele4, ...)

元組比列表的內存空間利用率更高,因為元組是固定不變的,所以沒有必要創建擁有剩余空間的動態數組。

我們先在Python的IDE中創建一個列表,然后大致了解一下列表部分內置操作,我們先創建了一個名為test_list的列表,然后修改(插入或刪除)元素,反轉或清空列表,具體如下:

>>> test_list = []	# 創建名為test_list的空列表
>>> test_list.append("Hello")
>>> test_list.append("World")
>>> test_list
['Hello', 'World']
>>> test_list = ["Hello", "Array", 2019, "easy learning", "DataStructure"]	# 重新給test_list賦值
>>> len(test_list)	# 求列表的長度
5
>>> test_list[2] = 1024	# 修改列表元素
>>> test_list
['Hello', 'Array', 1024, 'easy learning', 'DataStructure']
>>>
>>> test_list.insert(1, "I love")	# 向列表中指定位置中插入一個元素
>>> test_list
['Hello', 'I love', 'Array', 1024, 'easy learning', 'DataStructure']
>>> test_list.append(2020)	# 向列表末尾增加一個元素
>>> test_list
['Hello', 'I love', 'Array', 1024, 'easy learning', 'DataStructure', 2020]
>>>
>>> test_list.pop(1)	# 刪除指定位置的元素
'I love'
>>> test_list.remove(2020)	# 刪除指定元素
>>> 
>>> test_list.index('Hello')	# 查找某個元素的索引值
0
>>> test_list.index('hello')	# 如果查找某個元素不在列表中,返回ValueError錯誤
Traceback (most recent call last):
  File "<pyshell#11>", line 1, in <module>
    test_list.index('hello')
ValueError: 'hello' is not in list
>>> 
>>> test_list.reverse()	# 反轉整個列表
>>> test_list
['DataStructure', 'easy learning', 2019, 'Array', 'Hello']
>>> test_list.clear()	# 清空列表
>>> test_list
[]

我們看上面的代碼,可以看到list的相關操作——增刪改查,已經很強大了,還有一些內置方法這里並沒有做展示,留給讀者自己去發現並體驗。

Python列表的內存分配背后的基礎知識

因此,讓我們通過編碼實踐以及內存中保存的數組的實際大小與給定大小之間的關系來查看這種額外的空間演示。

前往Jupyter notebook進行練習。或者使用自己選擇的任何編輯器或開發環境。復制下面編寫的代碼。

# 導入sys模塊能方便我們使用gestsizeof函數
import sys

# set n
n = 20
# set empty list
list = []
for i in range(n):
    a = len(list)
    # 調用getsizeof函數用於給出Python中存儲對象的真實字節數
    b = sys.getsizeof(list)
    print('Length:{0:3d}; Size of bytes:{1:4d}'.format(a, b))
    # Increase length by one
    list.append(n)

運行代碼,可以看到如下輸出:
在這里插入圖片描述
現在,隨着我們增加列表的長度,字節也增加了。我們分析一下,Length:1位置的元素填入列表時,字節數從64跳到96,增加了32個字節。因為本實驗是在64位機器上運行的,這表明每個內存地址是64位(即8個字節)。增加的32個字節即為分配的用於存儲4個對象引用的數組大小。當增加第2個、第3個或者第4個元素時,內存占用沒有任何改變。字節數96能夠提供4個對象的引用。

\[96\ =\ 64\ +\ 8\ \times \ 4 \]

Length:10時,字節數從一開始的64跳到192,能存下16個對象的引用,

\[192\ =\ 64\ +\ 8\ \times \ 16 \]

一直到Length: 17后又開始跳轉,所以理論上264個字節數應該可以存下25個對象

\[264\ =\ 64\ +\ 8\ \times \ 25 \]

但因為我們在代碼中設置n=20,然后程序就終止了。

我們可以看到Python內置的list類足夠智能,知道當需要額外的空間來分配數據時,它會為它們提供額外的大小,那么這究竟是如何被實現的呢?

好吧,答案是動態數組。說到這里,不知道大家學Python列表的時候是不是這樣想的——列表很簡單嘛,就是list()類、用中括號[]括起來,然后指導書籍或文檔上的各類方法append、insert、pop...在各種IDE一頓操作過后,是的我覺得我學會了。

但其實背后的原理真的很不簡單,比如我舉個例子:A[-1]這個操作怎么實現?列表切片功能怎么實現?如何自己寫pop()默認刪除列表最右邊的元素(popleft刪除最左邊簡單)?...這些功能用起來爽,但真的自己實現太難了(我也還在學習中,大佬們請輕噴!)如果我們能學習並理解,肯定可以加強我們對數組這一結構的理解。

動態數組

什么是動態數組

動態數組是內存的連續區域,其大小隨着插入新數據而動態增長。在靜態數組中,我們需要在分配時指定大小。在定義數組的時候,其實計算機已經幫我們分配好了內存來存儲,實際上我們不能擴展數組,因為它的大小是固定的。比如:我們分配一個大小為10的數組,則不能插入超過10個項目。

但是動態數組會在需要的時候自動調整其大小。這一點有點像我們使用的Python列表,可以存儲任意數量的項目,而無需在分配時指定大小。

所以實現一個動態數組的實現的關鍵是——如何擴展數組?當列表list1的大小已滿時,而此時有新的元素要添加進列表,我們會執行一下步驟來克服其大小限制的缺點:

  1. 分配具有更大容量的新數組 list2
  2. 設置 list2[i] = list1[i] (i=0,1,2,...,n-1),其中n是該項目的當前編號
  3. 設置list1 = list2,也就是說,list2正在作為新的數組來引用我們的新列表。
  4. 然后,只要將新的元素插入(添加)到我們的列表list1即可。

接下來要思考的問題是,新數組應該多大?通常我們得做法是:新數組的大小是已滿的舊數組的2倍。我們將在Python中編程實現動態數組的概念,並創建一個簡單的代碼,很多功能不及Python強大。

實現動態數組的Python代碼

在Python中,我們利用ctypes的內置庫來創建自己的動態數組類,因為ctypes模塊提供對原始數組的支持,為了更快的對數組進行學習,所以對ctypes的知識可以查看官方文檔進行學習。關於Python的公有方法與私有方法,我們在方法名稱前使用雙下划線__使其保持隱藏狀態,代碼如下:

# -*- coding: utf-8 -*-
# @Time      : 2019-11-01 17:10
# @Author    : yuzhou_1su
# @ContactMe : https://blog.csdn.net/yuzhou_1shu
# @File      : DynamicArray.py
# @Software  : PyCharm

import ctypes


class DynamicArray:
    """A dynamic array class akin to a simplified Python list."""

    def __init__(self):
        """Create an empty array."""
        self.n = 0             # count actual elements
        self.capacity = 1      # default array capacity
        self.A = self._make_array(self.capacity)      # low-level array

    def is_empty(self):
        """ Return True if array is empty"""
        return self.n == 0

    def __len__(self):
        """Return numbers of elements stored in the array."""
        return self.n

    def __getitem__(self, i):
        """Return element at index i."""
        if not 0 <= i < self.n:
            # Check it i index is in bounds of array
            raise ValueError('invalid index')
        return self.A[i]

    def append(self, obj):
        """Add object to end of the array."""
        if self.n == self.capacity:
            # Double capacity if not enough room
            self._resize(2 * self.capacity)
        self.A[self.n] = obj    # Set self.n index to obj
        self.n += 1

    def _resize(self, c):
        """Resize internal array to capacity c."""
        B = self._make_array(c)     # New bigger array
        for k in range(self.n):    # Reference all existing values
            B[k] = self.A[k]
        self.A = B          # Call A the new bigger array
        self.capacity = c   # Reset the capacity

    @staticmethod
    def _make_array(c):
        """Return new array with capacity c."""
        return (c * ctypes.py_object)()

    def insert(self, k, value):
        """Insert value at position k."""
        if self.n == self.capacity:
            self._resize(2 * self.capacity)
        for j in range(self.n, k, -1):
            self.A[j] = self.A[j-1]
        self.A[k] = value
        self.n += 1

    def pop(self, index=0):
        """Remove item at index (default first)."""
        if index >= self.n or index < 0:
            raise ValueError('invalid index')
        for i in range(index, self.n-1):
            self.A[i] = self.A[i+1]
        self.A[self.n - 1] = None
        self.n -= 1

    def remove(self, value):
        """Remove the first occurrence of a value in the array."""
        for k in range(self.n):
            if self.A[k] == value:
                for j in range(k, self.n - 1):
                    self.A[j] = self.A[j+1]
                self.A[self.n - 1] = None
                self.n -= 1
                return
        raise ValueError('value not found')

    def _print(self):
        """Print the array."""
        for i in range(self.n):
            print(self.A[i], end=' ')
        print()

測試動態數組Python代碼

上面我們已經實現了一個動態數組的類,相信都很激動,接下來讓我們來測試一下,看能不能成功呢?在同一個文件下,寫的測試代碼如下:

def main():
    # Instantiate
    mylist = DynamicArray()

    # Append new element
    mylist.append(10)
    mylist.append(9)
    mylist.append(8)
    # Insert new element in given position
    mylist.insert(1, 1024)
    mylist.insert(2, 2019)
    # Check length
    print('The array length is: ', mylist.__len__())
    # Print the array
    print('Print the array:')
    mylist._print()
    # Index
    print('The element at index 1 is :', mylist[1])
    # Remove element
    print('Remove 2019 in array:')
    mylist.remove(2019)
    mylist._print()
    # Pop element in given position
    print('Pop pos 2 in array:')
    # mylist.pop()
    mylist.pop(2)
    mylist._print()


if __name__ == '__main__':
    main()

測試結果

激動人心的時刻揭曉,測試結果如下。請結合測試代碼和數組的結構進行理解,如果由疏漏,歡迎大家指出。

The array length is:  5
Print the array:
10 1024 2019 9 8 
The element at index 1 is : 1024
Remove 2019 in array:
10 1024 9 8 
Pop pos 2 in array:
10 1024 8 

總結

通過以上的介紹,我們知道了數組存在靜態和動態類型。對應到Python——列表就是動態數組,而元組和字符串就是靜態數組。
而在本博客中,我們着重介紹了什么是動態數組,並通過Python代碼進行實現。希望你能從此以復雜的方式學會數組。
總結發言,看似簡單的操作,背后實現原理可能很復雜。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM