urllib
在python3中,urllib和urllib2進行了合並,現在只有一個urllib模塊,urllib和urllib2的中的內容整合進了urllib.request,urlparse整合進了urllib.parse
urlparse 將urlstr解析成各個組件
# -*- coding:utf-8 -*- import urllib.request import urllib.parse url = "http://www.baidu.com" parsed = urllib.parse.urlparse(url) print(parsed) #輸出:ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment='')
urljoin(baseurl,newurl,allowFrag=None) 將url的根域名和新url拼合成一個完整的url
import urllib.parse url = "http://www.baidu.com" new_path = urllib.parse.urljoin(url,"index.html") print(new_path) #輸出:http://www.baidu.com/index.html
urlopen(url,data,timeout) 打開一個url的方法,返回一個文件對象,然后可以進行類似文件對象的操作
import urllib.request req = urllib.request.urlopen('http://www.baidu.com') print(req.read())
read() , readline() , readlines() , fileno() , close()
info():返回一個httplib.HTTPMessage 對象,表示遠程服務器返回的頭信息。
getcode():返回Http狀態碼,如果是http請求,200表示請求成功完成;404表示網址未找到。
geturl():返回請求的url。
urlretrieve(url,filename,reporthook,data) 下載url定位到的html文件,不寫路徑filename則會被存為臨時文件可以用 urllib.urlcleanup() 來清理緩存
file_name = urllib.request.urlretrieve('http://www.baidu.com','%s/baidu.html'%BASE_DIR)
urlencode() 將dict中的鍵值對以連接符&划分
import urllib.parse dic = {'name':'melon','age':18} data = urllib.parse.urlencode(dic) print(data) #age=18&name=melon
GET請求
GET請求 和我們平常get訪問方式一樣,直接把參數寫到網址上面就好了
import urllib.request import urllib.parse dic = {'name':'melon','age':18} data = urllib.parse.urlencode(dic) req = urllib.request.urlopen('http://127.0.0.1:8000/index?%s'%data) content = req.read()
POST請求
import urllib.request import urllib.parse import json dic = {'name':'melon','age':18} data = urllib.parse.urlencode(dic) req = urllib.request.Request('http://127.0.0.1:8000/index', data.encode()) opener = urllib.request.urlopen(req) content = json.loads(opener.read().decode())
當你 urllib.urlopen一個 https 的時候會驗證一次 SSL 證書,當目標使用的是自簽名的證書時就會出現一個URLError,如果是這樣可以在開頭加上
import ssl ssl._create_default_https_context = ssl._create_unverified_context