1. mmap內存映射文件
建立一個文件的內存映射將使用操作系統虛擬內存來直接訪問文件系統上的數據,而不是使用常規的I/O函數訪問數據。內存映射通常可以提供I/O性能,因為使用內存映射是,不需要對每個訪問都建立一個單獨的系統調用,也不需要在緩沖區之間復制數據;實際上,內核和用戶應用都能直接訪問內存。
內存映射文件可以看作是可修改的字符串或類似文件的對象,這取決於具體的需要。映射文件支持一般的文件API方法,如close()、flush()、read()、readline()、seek()、tell()和write()。它還支持字符串API,提供分片等特性以及類似find()的方法。
下面的所有示例都會使用文本文件lorem.txt,其中包含一些Lorem Ipsum。為便於參考,下面的代碼清單給出這個文件的文本。
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Donec egestas, enim et consectetuer ullamcorper, lectus ligula rutrum leo, a elementum elit tortor eu quam. Duis tincidunt nisi ut ante. Nulla facilisi. Sed tristique eros eu libero. Pellentesque vel arcu. Vivamus purus orci, iaculis ac, suscipit sit amet, pulvinar eu, lacus. Praesent placerat tortor sed nisl. Nunc blandit diam egestas dui. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Aliquam viverra fringilla leo. Nulla feugiat augue eleifend nulla. Vivamus mauris. Vivamus sed mauris in nibh placerat egestas. Suspendisse potenti. Mauris massa. Ut eget velit auctor tortor blandit sollicitudin. Suspendisse imperdiet justo.
1.1 讀文件
使用mmap()函數可以創建一個內存映射文件。第一個參數是文件描述符,可能來自file對象的fileno()方法,也可能來自os.open()。調用者在調用mmap()之前負責打開文件,不再需要文件時要負責將其關閉。
mmap()的第二個參數是要映射的文件部分的大小(以字節為單位)。如果這個值為0,則映射整個文件。如果這個大小大於文件的當前大小,則會擴展該文件。
這兩個平台都支持一個可選的關鍵字參數access。使用ACCESS_READ表示只讀訪問;ACCESS_WRITE表示“寫通過”(write-through),即對內存的賦值直接寫入文件;ACCESS_COPY表示“寫時復制”(copy-on-write),對內存的賦值不會寫至文件。
import mmap with open('lorem.txt', 'r') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as m: print('First 10 bytes via read :', m.read(10)) print('First 10 bytes via slice:', m[:10]) print('2nd 10 bytes via read :', m.read(10))
文件指針會跟蹤通過一個分片操作訪問的最后一個字節。在這個例子中,第一次讀之后,指針向前移動10個字節。然后由分片操作將指針重置回文件的起點位置,並由分片使指針再次向前移動10個字節。分片操作之后,再調用read()會給出文件的11~20字節。

1.2 寫文件
要建立內存映射文件來接收更新,映射之前首先要使用模式'r+'(而不是'w')打開文件以便完成追加。然后可以使用任何改變數據的API方法(例如write()或賦值到一個分片等)。
下面的例子使用了默認訪問模式ACCESS_WRITE,並賦值到一個分片,以原地修改某一行的一部分。
import mmap import shutil # Copy the example file shutil.copyfile('lorem.txt', 'lorem_copy.txt') word = b'consectetuer' reversed = word[::-1] print('Looking for :', word) print('Replacing with :', reversed) with open('lorem_copy.txt', 'r+') as f: with mmap.mmap(f.fileno(), 0) as m: print('Before:\n{}'.format(m.readline().rstrip())) m.seek(0) # rewind loc = m.find(word) m[loc:loc + len(word)] = reversed m.flush() m.seek(0) # rewind print('After :\n{}'.format(m.readline().rstrip())) f.seek(0) # rewind print('File :\n{}'.format(f.readline().rstrip()))
內存的文件中第一行中間的單詞“consectetuer”將被替換。

使用訪問設置ACCESS_COPY時不會把修改寫入磁盤上的文件。
import mmap import shutil # Copy the example file shutil.copyfile('lorem.txt', 'lorem_copy.txt') word = b'consectetuer' reversed = word[::-1] with open('lorem_copy.txt', 'r+') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_COPY) as m: print('Memory Before:\n{}'.format( m.readline().rstrip())) print('File Before :\n{}\n'.format( f.readline().rstrip())) m.seek(0) # rewind loc = m.find(word) m[loc:loc + len(word)] = reversed m.seek(0) # rewind print('Memory After :\n{}'.format( m.readline().rstrip())) f.seek(0) print('File After :\n{}'.format( f.readline().rstrip()))
在這個例子中,必須單獨的回轉文件句柄和mmap句柄,因為這兩個對象的內部狀態會單獨維護。

1.3 正則表達式
由於內存映射文件就類似於一個字符串,因此也常與其他處理字符串的模塊一起使用,如正則表達式。下面的例子會找出所有包含“nulla”的句子。
import mmap import re pattern = re.compile(rb'(\.\W+)?([^.]?nulla[^.]*?\.)', re.DOTALL | re.IGNORECASE | re.MULTILINE) with open('lorem.txt', 'r') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as m: for match in pattern.findall(m): print(match[1].replace(b'\n', b' '))
由於這個模式包含兩個組,所以findall()的返回值是一個元組序列。print語句會找到匹配的句子,並用空格代替換行符,使各個結果都打印在同一行上。

