Python urllib模塊urlopen()與urlretrieve()詳解

本文轉載自查看原文 2016-08-18 21:02 16252 python

1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :創建一個表示遠程url的類文件對象，然后像本地文件一樣操作這個類文件對象來獲取遠程數據。
參數url表示遠程數據的路徑，一般是網址；
參數data表示以post方式提交到url的數據(玩過web的人應該知道提交數據的兩種方式：post與get。如果你不清楚，也不必太在意，一般情況下很少用到這個參數)；
參數proxies用於設置代理。
urlopen返回一個類文件對象，它提供了如下方法：
read() , readline() , readlines() , fileno() , close() ：這些方法的使用方式與文件對象完全一樣;
info()：返回一個httplib.HTTPMessage 對象，表示遠程服務器返回的頭信息
getcode()：返回Http狀態碼。如果是http請求，200表示請求成功完成;404表示網址未找到；
geturl()：返回請求的url；
代碼示例：

import urllib
url = "http://www.baidu.com/"
#urlopen()
sock = urllib.urlopen(url)
htmlCode = sock.read()
sock.close
fp = open("e:/1.html","wb")
fp.write(htmlCode)
fp.close
#urlretrieve()
urllib.urlretrieve(url, 'e:/2.html')

2.urlretrieve方法
直接將遠程數據下載到本地。

urllib.urlretrieve(url[, filename[, reporthook[, data]]])
參數說明：
url：外部或者本地url
filename：指定了保存到本地的路徑（如果未指定該參數，urllib會生成一個臨時文件來保存數據）；
reporthook：是一個回調函數，當連接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。我們可以利用這個回調函數來顯示當前的下載進度。
data：指post到服務器的數據。該方法返回一個包含兩個元素的元組(filename, headers)，filename表示保存到本地的路徑，header表示服務器的響應頭。

下面通過例子來演示一下這個方法的使用，這個例子將新浪首頁的html抓取到本地，保存在D:/sina.html文件中，同時顯示下載的進度。

import urllib
def callbackfunc(blocknum, blocksize, totalsize):
    '''回調函數
    @blocknum: 已經下載的數據塊
    @blocksize: 數據塊的大小
    @totalsize: 遠程文件的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    print "%.2f%%"% percent
url = 'http://www.sina.com.cn'
local = 'd:\\sina.html'
urllib.urlretrieve(url, local, callbackfunc)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [urllib]urlretrieve在python3 [轉]urllib模塊urlretrieve方法 python之文件下載（urllib模塊urlretrieve方法） urlopen()&urlretrieve() python urllib模塊的urlopen()的使用方法及實例 python urllib urlretrieve函數解析 Python urllib3模塊詳解 python使用urllib.urlopen超時的問題 python 爬蟲基本庫使用urllib之urlopen(一) python爬蟲必學標准模塊——urllib和urllib3詳解