一、 python文件訪問
1, 在python中要訪問文件,首先要打開文件,也就是open()這個函數
其中三個常用的參數為(1,要操作的文件路徑2,訪問的方式3,encodeing=字符編碼)
有很多種訪問方式
(1), r: 只讀
(2), w: 只寫,文件已存在則清空,不存在則創建
(3), a: 追加,寫在文件末尾,如果文件存在,則在文件最后去追加,文件不存在則創建
(4), +-: 更新(可讀可寫)
(5), r+:以只讀的模式打開(參見r)
(6), w+: 以只寫的方式打開(參見w)
(7), a+ : 以追加的方法打開(參見a)
(8), rb:以二進制讀模式打開
(9), wb:以二進制寫模式打開
(10), ab:以二進制追加模式打開(參見a)
(11), rb+:以二進制讀寫模式打開(參見r+)
(12), wb+:以二進制讀寫模式打開(參見w+)
(13), ab+: 以二進制讀寫模式打開(參見a+)
2,文件的操作
1,open() 打開文件
2,read()讀取文件
readline()讀取整行,包括“\n”字符
readlines()讀取文件,最后把文件每行內容作為一個字符串放在一個list中
注意:read系列函數的參數可以控制讀取的字節數量
3,write()寫文件,要傳入一個字符串的參數
writelines()寫文件,要傳入一個列表
4,close() 關閉文件,關閉后不再進行讀寫操作
flush() 刷新文件內部緩沖,直接把內部緩沖區的數據立刻寫入文件, 而不是被動的等待輸出緩沖區寫入。
next(文件) 返回文件的下一行數據,從第一行數據開始
5,seek( )用於移動指定位置
參數 offset—開始偏移量,也就是代表需要移動的字節數
Whence---可選,默認值為 0。給offset參數一個定義,表示要從哪個位置開始偏移;0代表從文件開頭開始算起,1代表從當前位置開始算起,2代表從文件末尾算起
注意:如果偏移是2的時候,偏移量的數必須要為復數
tell()返回文件當前位置
6,案例中要用到的標簽庫和一些關鍵字
1, Importcodecs 默認編碼Unicode,這樣會省去一些轉換編碼的事情
2, with用法,不需要用fd.close()關閉文件
with codecs.open('3.txt','rb') as fd:
print fd.read()
3,對象序列化與反序列化
通過將對象序列化可以將其存儲在變量或者文件中,可以保存當時對象的狀態,實現其生命周期的延長。並且需要時可以再次將這個對象讀取出來。Python中有幾個常用模塊可實現這一功能。
pickle模塊
存儲在變量中
dumps(obj)返回存入的字節
讀取數據
數據以字節保存在了data變量中,需要再次使用的時候使用loads函數就行
存儲在文件中
也可以存在文件中,使得對象持久化。使用的是dump和load函數,注意和上面的區別,少了s。由於pickle寫入的是二進制數據,所以打開方式需要以wb和rb的模式
1 2 3 4 5 6 7 8 |
# 序列化 with open('abc.pkl', 'wb') as f: dic = {'age': 23, 'job': 'student'} pickle.dump(dic, f) # 反序列化 with open('abc.pkl', 'rb') as f: aa = pickle.load(f) print(aa) |
4,爬一個網頁的數據
二、 OS模塊操作
os.sep:取代操作系統特定的路徑分隔符
os.name:指示你正在使用的工作平台。比如對於Windows,它是'nt',而對於Linux/Unix用戶,它是'posix'。
os.getcwd:得到當前工作目錄,即當前python腳本工作的目錄路徑。
os.getenv()和os.putenv:分別用來讀取和設置環境變量
os.listdir():返回指定目錄下的所有文件和目錄名
os.remove(file):刪除一個文件
os.stat(file):獲得文件屬性
os.chmod(file):修改文件權限和時間戳
os.mkdir(name):創建目錄
os.rmdir(name):刪除目錄
os.removedirs(r“c:\python”):刪除多個目錄
os.system():運行shell命令
os.exit():終止當前進程
os.linesep:給出當前平台的行終止符。例如,Windows使用'\r\n',Linux使用'\n'而Mac使用'\r'
os.path.split():返回一個路徑的目錄名和文件名
os.path.isfile()和os.path.isdir()分別檢驗給出的路徑是一個目錄還是文件
os.path.existe():檢驗給出的路徑是否真的存在
os.listdir(dirname):列出dirname下的目錄和文件
os.getcwd():獲得當前工作目錄
os.curdir:返回當前目錄('.')
os.chdir(dirname):改變工作目錄到dirname
os.path.isdir(name):判斷name是不是目錄,不是目錄就返回false
os.path.isfile(name):判斷name這個文件是否存在,不存在返回false
os.path.exists(name):判斷是否存在文件或目錄name
os.path.getsize(name):或得文件大小,如果name是目錄返回0L
os.path.abspath(name):獲得絕對路徑
os.path.isabs():判斷是否為絕對路徑
os.path.normpath(path):規范path字符串形式
os.path.split(name):分割文件名與目錄(事實上,如果你完全使用目錄,它也會將最后一個目錄作為文件名而分離,同時它不會判斷文件或目錄是否存在)
os.path.splitext():分離文件名和擴展名
os.path.join(path,name):連接目錄與文件名或目錄
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路徑