Python2/3中的urllib庫

本文轉載自查看原文 2017-12-19 12:32 2001

介紹urllib庫在不同版本的Python中的變動，並以Python3.X講解urllib庫的相關用法。

urllib庫對照速查表

Python2.X	Python3.X
urllib	urllib.request, urllib.error, urllib.parse
urllib2	urllib.request, urllib.error
urllib2.urlopen	urllib.request.urlopen
urllib.urlencode	urllib.parse.urlencode
urllib.quote	urllib.request.quote
urllib2.Request	urllib.request.Request
urlparse	urllib.parse
urllib.urlretrieve	urllib.request.urlretrieve
urllib2.URLError	urllib.error.URLError
cookielib.CookieJar	http.CookieJar

urllib庫是用於操作URL，爬取頁面的python第三方庫，同樣的庫還有requests、httplib2。

在Python2.X中，分urllib和urllib2，但在Python3.X中，都統一合並到urllib中。通過上表可以看到其中常見的變動，依據該變動可快速寫出相應版本的python程序。

相對來說，Python3.X對中文的支持比Python2.X友好，所以該博客接下來通過Python3.X來介紹urllib庫的一些常見用法。

發送請求

import urllib.request
r = urllib.request.urlopen("http://www.python.org/")

首先導入urllib.request模塊，使用urlopen()對參數中的URL發送請求，返回一個http.client.HTTPResponse對象。

在urlopen()中，使用timeout字段，可設定相應的秒數時間之后停止等待響應。除此之外，還可使用r.info()、r.getcode()、r.geturl()獲取相應的當前環境信息、狀態碼、當前網頁URL。

讀取響應內容

import urllib.request
url = "http://www.python.org/"
with urllib.request.urlopen(url) as r:
    r.read()

使用r.read()讀取響應內容到內存，該內容為網頁的源代碼（可用相應的瀏覽器“查看網頁源代碼”功能看到），並可對返回的字符串進行相應解碼decode()。

傳遞URL參數

import urllib.request
import urllib.parse
params = urllib.parse.urlencode({'q': 'urllib', 'check_keywords': 'yes', 'area': 'default'})
url = "https://docs.python.org/3/search.html?{}".format(params)

r = urllib.request.urlopen(url)

以字符串字典的形式，通過urlencode()編碼，為URL的查詢字符串傳遞數據，

編碼后的params為字符串，字典每項鍵值對以’&’連接：’q=urllib&check_keywords=yes&area=default’

構建后的URL：https://docs.python.org/3/search.html?q=urllib&check_keywords=yes&area=default

當然，urlopen()支持直接構建的URL，簡單的get請求可以不通過urlencode()編碼，手動構建后直接請求。上述方法使代碼模塊化，更優雅。

傳遞中文參數

import urllib.request
searchword = urllib.request.quote(input("請輸入要查詢的關鍵字："))
url = "https://cn.bing.com/images/async?q={}&first=0&mmasync=1".format(searchword)
r = urllib.request.urlopen(url)

該URL是利用bing圖片接口，查詢關鍵字q的圖片。如果直接將中文傳入URL中請求，會導致編碼錯誤。我們需要使用quote()，對該中文關鍵字進行URL編碼，相應的可以使用unquote()進行解碼。

定制請求頭

import urllib.request
url = 'https://docs.python.org/3/library/urllib.request.html'
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
    'Referer': 'https://docs.python.org/3/library/urllib.html'
}
req = urllib.request.Request(url, headers=headers)
r = urllib.request.urlopen(req)

有時爬取一些網頁時，會出現403錯誤（Forbidden），即禁止訪問。這是因為網站服務器對訪問者的Headers屬性進行身份驗證，例如：通過urllib庫發送的請求，默認以”Python-urllib/X.Y”作為User-Agent，其中X為Python的主版本號，Y為副版本號。所以，我們需要通過urllib.request.Request()構建Request對象，傳入字典形式的Headers屬性，模擬瀏覽器。

相應的Headers信息，可通過瀏覽器的開發者調試工具，”檢查“功能的”Network“標簽查看相應的網頁得到，或使用抓包分析軟件Fiddler、Wireshark。

除上述方法外，還可以使用urllib.request.build_opener()或req.add_header()定制請求頭，詳見官方樣例。

在Python2.X中，urllib模塊和urllib2模塊通常一起使用，因為urllib.urlencode()可以對URL參數進行編碼，而urllib2.Request()可以構建Request對象，定制請求頭，然后統一使用urllib2.urlopen()發送請求。

傳遞POST請求

import urllib.request
import urllib.parse
url = 'https://passport.cnblogs.com/user/signin?'
post = {
    'username': 'xxx',
    'password': 'xxxx'
}
postdata = urllib.parse.urlencode(post).encode('utf-8')
req = urllib.request.Request(url, postdata)
r = urllib.request.urlopen(req)

我們在進行注冊、登錄等操作時，會通過POST表單傳遞信息。

這時，我們需要分析頁面結構，構建表單數據post，使用urlencode()進行編碼處理，返回字符串，再指定’utf-8’的編碼格式，這是因為POSTdata只能是bytes或者file object。最后通過Request()對象傳遞postdata，使用urlopen()發送請求。

下載遠程數據到本地

import urllib.request
url = "https://www.python.org/static/img/python-logo.png"
urllib.request.urlretrieve(url, "python-logo.png")

爬取圖片、視頻等遠程數據時，可使用urlretrieve()下載到本地。

第一個參數為要下載的url，第二個參數為下載后的存放路徑。

該樣例下載python官網logo到當前目錄下，返回元組(filename, headers)。

設置代理IP

import urllib.request
url = "https://www.cnblogs.com/"
proxy_ip = "180.106.16.132:8118"
proxy = urllib.request.ProxyHandler({'http': proxy_ip})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

有時頻繁的爬取一個網頁，會被網站服務器屏蔽IP。這時，可通過上述方法設置代理IP。

首先，通過網上代理IP的網站找一個可以用的IP，構建ProxyHandler()對象，將’http’和代理IP以字典形式作為參數傳入，設置代理服務器信息。再構建opener對象，將proxy和HTTPHandler類傳入。通過installl_opener()將opener設置成全局，當用urlopen()發送請求時，會使用之前設置的信息來發送相應的請求。

異常處理

import urllib.request
import urllib.error
url = "http://www.balabalabala.org"
try:
    r = urllib.request.urlopen(url)
except urllib.error.URLError as e:
    if hasattr(e, 'code'):
        print(e.code)
    if hasattr(e, 'reason'):
        print(e.reason)

可以使用URLError類，處理一些URL相關異常。導入urllib.error，捕獲URLError異常后，因為只有發生HTTPError異常（URLError子類）時，才會有異常狀態碼e.code，所以需要判斷異常是否有屬性code。

Cookie的使用

import urllib.request
import http.cookiejar
url = "http://www.balabalabala.org/"
cjar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

通過無狀態協議HTTP訪問網頁時，Cookie維持會話間的狀態。例如：有些網站需要登錄操作，第一次可通過提交POST表單來登錄，當爬取該網站下的其它站點時，可以使用Cookie來保持登錄狀態，而不用每次都通過提交表單來登錄。

首先，構建CookieJar()對象cjar，再使用HTTPCookieProcessor()處理器，處理cjar，並通過build_opener()構建opener對象，設置成全局，通過urlopen()發送請求。

官方文檔

Python2.X： urllib、urllib2

Python3.X： urllib.request

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python3中Urllib庫是什么？urllib模塊基本使用 python2與python3的不兼容_urllib2 Python之urllib庫詳解 python爬蟲之urllib庫（一） python3 中自帶urllib庫可下載圖片到本地 python3中urllib庫的request模塊詳解 urllib庫詳解 --Python3 Python3---標准庫---urllib python3爬蟲之Urllib庫（一） Python--urllib3庫詳解1