一、迭代器
說迭代器之前有兩個相關的名詞需要介紹:
可迭代對象:只要定義了__iter__()方法,我們就說該對象是可迭代對象,並且可迭代對象能提供迭代器。
迭代器:實現了__next__()或者next()(python2)方法的稱為迭代器,迭代器僅僅在迭代到某個元素時才計算該元素,而在這之前或之后,元素可以不存在或者被銷毀,因此只占用固定的內存。
迭代:當我們使用一個循環來遍歷某個東西時,這個過程本身就叫迭代。迭代器迭代的元素只能往前不能后退。
1、為何用迭代器
下面用生成斐波那契數列為例子,說明為何用迭代器
#代碼1 def fab(max): n, a, b = 0, 0, 1 while n < max: print b a, b = b, a + b n = n + 1 #直接在函數fab(max)中用print打印會導致函數的可復用性變差,因為fab返回None。其他函數無法獲得fab函數返回的數列。
#代碼2 def fab(max): L = [] n, a, b = 0, 0, 1 while n < max: L.append(b) a, b = b, a + b n = n + 1 return L #代碼2滿足了可復用性的需求,但是占用了內存空間。
#代碼3,定義並使用迭代器 class Fab(object): def __init__(self, max): self.max = max self.n, self.a, self.b = 0, 0, 1 def __iter__(self): return self def next(self): if self.n < self.max: r = self.b self.a, self.b = self.b, self.a + self.b self.n = self.n + 1 return r raise StopIteration() for key in Fabs(5): print key #Fabs 類通過 next() 不斷返回數列的下一個數,內存占用始終為常數
2、如何使用迭代器
使用內建的工廠函數iter(iterable)可以獲取迭代器對象(對象包含__iter__方法即可迭代,__iter__方法返回一個迭代器):
>>> lst = range(5) >>> it = iter(lst) >>> it <listiterator object at 0x0000000001E43390>
使用next()方法訪問下一個元素
>>> it.next() 0 >>> it.next() 1 >>> it.next() 2
python處理迭代器越界是拋出StopIteration異常
>>> it.next() 3 >>> it.next <method-wrapper 'next' of listiterator object at 0x01A63110> >>> it.next() 4 >>> it.next()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
了解了StopIteration,可以使用迭代器進行遍歷了:
lst = range(5) it = iter(lst) try: while True: val = it.next() print val except StopIteration: pass
3、for語法糖
幸運的是python提供的for語句語法糖為迭代提供了方便的使用方法。在for循環中,Python將自動調用工廠函數iter()獲得迭代器,自動調用next()獲取元素,還完成了檢查StopIteration異常的工作。
>>> lst = range(5) >>> for i in lst: ... print i ... 0 1 2 3 4
二、生成器
帶有 yield 的函數在 Python 中被稱之為 generator(生成器),幾個例子說明下(還是用生成斐波那契數列說明),可以看出代碼3遠沒有代碼1簡潔,生成器(yield)既可以保持代碼1的簡潔性,又可以保持代碼3的效果。
#代碼4 def fab(max): n, a, b = 0, 0, 1 while n < max: yield b a, b = b, a + b n = n+ 1 #執行 for n in fab(5): print n 1 1 2 3 5
生成器也是一種迭代器,簡單地講,yield 的作用就是把一個函數變成一個 generator,帶有 yield 的函數不再是一個普通函數,Python 解釋器會將其視為一個 generator,調用 fab(5) 不會執行 fab 函數,而是返回一個 iterable 對象!在 for 循環執行時,每次循環都會執行 fab 函數內部的代碼,執行到 yield b 時,fab 函數就返回一個迭代值,下次迭代時,代碼從 yield b 的下一條語句繼續執行,而函數的本地變量看起來和上次中斷執行前是完全一樣的,於是函數繼續執行,直到再次遇到 yield。看起來就好像一個函數在正常執行的過程中被 yield 中斷了數次,每次中斷都會通過 yield 返回當前的迭代值。
也可以手動調用 fab(5) 的 next() 方法(因為 fab(5) 是一個 generator 對象,該對象具有 next() 方法),這樣我們就可以更清楚地看到 fab 的執行流程:
>>> f = fab(3) >>> f.next() 1 >>> f.next() 1 >>> f.next() 2 >>> f.next() Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
return作用
在一個生成器中,如果沒有return,則默認執行到函數完畢;如果遇到return,如果在執行過程中 return,則直接拋出 StopIteration 終止迭代。例如
def read_file(fpath): BLOCK_SIZE = 1024 with open(fpath, 'rb') as f: while True: block = f.read(BLOCK_SIZE) if block: yield block else: return
如果直接對文件對象調用 read() 方法,會導致不可預測的內存占用。好的方法是利用固定長度的緩沖區來不斷讀取文件內容。通過 yield,我們不再需要編寫讀文件的迭代類,就可以輕松實現文件讀取。
