包括 網頁請求、響應獲取、代理和cookie設置、異常處理、URL解析 等功能的Python模塊
源代碼: Lib/urllib/
urllib 是一個收集了多個用到 URL 的模塊的包:
-
urllib.request打開和讀取 URL -
urllib.error包含urllib.request拋出的異常 -
urllib.parse用於解析 URL -
urllib.robotparser用於解析robots.txt文件
urllib.request
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url:打開統一資源定位地址 url,可以是一個字符串或一個 Request 對象。
data:發送到響應服務器的其他數據的對象(eg:POST方式的數據包),默認為None
timeout:以 秒 為單位,用於超時連接的斷開操作,只適用於HTTP、HTTPS、FTP連接。
cafile:包含CA證書的單個文件
capath:hash后的證書文件的目錄路徑
context:描述各種SSL選項的ssl.SSLContext實例
urllib.request.install_opener(opener)
將OpenerDirector實例安裝為默認的全局啟動器。
urllib.request.build_opener([handler, ...])
返回一個OpenerDirector實例,該實例按給定的順序鏈接處理程序。handler可以是的實例,也可以是的BaseHandler子類BaseHandler(在這種情況下,必須可以不帶任何參數地調用構造函數)。
urllib.request.pathname2url(path)
將路徑名路徑從路徑的本地語法轉換為URL的路徑組件中使用的形式。
urllib.request.url2pathname(path)
將路徑組件路徑從百分比編碼的URL 轉換為路徑的本地語法。
urllib.request.getproxies()
此輔助函數將方案字典返回到代理服務器URL映射。
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
url 是一個含有一個有效的統一資源定位地址的字符串。
-
class
urllib.request.OpenerDirector -
本
OpenerDirector類打開通過URLBaseHandler鏈接在一起。它管理處理程序的鏈接以及從錯誤中恢復。
-
class
urllib.request.BaseHandler -
這是所有注冊處理程序的基類---並且僅處理簡單的注冊機制。
-
class
urllib.request.HTTPDefaultErrorHandler -
定義HTTP錯誤響應的默認處理程序的類;所有的回應都變成了
HTTPError例外。
-
class
urllib.request.HTTPRedirectHandler -
一個用於處理重定向的類。
-
class
urllib.request.HTTPCookieProcessor(cookiejar=None) -
一個用於處理 HTTP Cookies 的類。
-
class
urllib.request.ProxyHandler(proxies=None)
使請求通過代理。如果給出了代理,則它必須是將協議名稱映射到代理URL的字典。
參考資料:
