包括 網頁請求、響應獲取、代理和cookie設置、異常處理、URL解析 等功能的Python模塊
源代碼: Lib/urllib/
urllib
是一個收集了多個用到 URL 的模塊的包:
-
urllib.request
打開和讀取 URL -
urllib.error
包含urllib.request
拋出的異常 -
urllib.parse
用於解析 URL -
urllib.robotparser
用於解析robots.txt
文件
urllib.request
urllib.request.
urlopen
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url:打開統一資源定位地址 url,可以是一個字符串或一個 Request
對象。
data:發送到響應服務器的其他數據的對象(eg:POST方式的數據包),默認為None
timeout:以 秒 為單位,用於超時連接的斷開操作,只適用於HTTP、HTTPS、FTP連接。
cafile:包含CA證書的單個文件
capath:hash后的證書文件的目錄路徑
context:描述各種SSL選項的ssl.SSLContext實例
urllib.request.install_opener(opener)
將OpenerDirector
實例安裝為默認的全局啟動器。
urllib.request.
build_opener
([handler, ...])
返回一個OpenerDirector
實例,該實例按給定的順序鏈接處理程序。handler可以是的實例,也可以是的BaseHandler
子類BaseHandler
(在這種情況下,必須可以不帶任何參數地調用構造函數)。
urllib.request.
pathname2url
(path)
將路徑名路徑從路徑的本地語法轉換為URL的路徑組件中使用的形式。
urllib.request.
url2pathname
(path)
將路徑組件路徑從百分比編碼的URL 轉換為路徑的本地語法。
urllib.request.
getproxies
()
此輔助函數將方案字典返回到代理服務器URL映射。
class urllib.request.
Request
(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
url 是一個含有一個有效的統一資源定位地址的字符串。
-
class
urllib.request.
OpenerDirector
-
本
OpenerDirector
類打開通過URLBaseHandler
鏈接在一起。它管理處理程序的鏈接以及從錯誤中恢復。
-
class
urllib.request.
BaseHandler
-
這是所有注冊處理程序的基類---並且僅處理簡單的注冊機制。
-
class
urllib.request.
HTTPDefaultErrorHandler
-
定義HTTP錯誤響應的默認處理程序的類;所有的回應都變成了
HTTPError
例外。
-
class
urllib.request.
HTTPRedirectHandler
-
一個用於處理重定向的類。
-
class
urllib.request.
HTTPCookieProcessor
(cookiejar=None) -
一個用於處理 HTTP Cookies 的類。
-
class
urllib.request.
ProxyHandler
(proxies=None)
使請求通過代理。如果給出了代理,則它必須是將協議名稱映射到代理URL的字典。
參考資料: