1.更多信息http://www.python-requests.org
2.安裝:Win平台: “以管理員身份運行”cmd,執行 pip install requests
3.requests庫的七個主要方法:
requests.request() 構造一個請求,支撐以下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法,對應於HTTP的GET
requests.head() 獲取HTML網頁頭信息的方法,對應於HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法,對應於HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT
requests.patch() 向HTML網頁提交局部修改請求,對應於HTTP的PATCH
requests.delete() 向HTML頁面提交刪除請求,對應於HTTP的DELETE
4.get()方法
(1)r = requests.get(url)
get(url)構造一個向服務器請求資源的Request對象
r返回一個包含服務器資源的Response對象
(2)requests.get(url, params=None, **kwargs)
∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數,字典或字節流格式,可選
∙ **kwargs: 12個控制訪問的參數
(3)Response 對象的屬性:
r.status_code HTTP請求的返回狀態,200表示連接成功,404表示失敗
r.text HTTP響應內容的字符串形式,即,url對應的頁面內容
r.encoding 從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding 從內容中分析出的響應內容編碼方式(備選編碼方式)
r.content HTTP響應內容的二進制形式
r.encoding:如果header中不存在charset,則認為編碼為ISO‐8859‐1
r.text根據r.encoding顯示網頁內容
r.apparent_encoding:根據網頁內容分析出的編碼方式可以看作是r.encoding的備選
5.爬取網頁的通用代碼框架
(1)requests異常
requests.ConnectionError 網絡連接錯誤異常,如DNS查詢失敗、拒絕連接等
requests.HTTPError HTTP錯誤異常
requests.URLRequired URL缺失異常
requests.TooManyRedirects 超過最大重定向次數,產生重定向異常
requests.ConnectTimeout 連接遠程服務器超時異常
requests.Timeout 請求URL超時,產生超時異常
(2)Response異常
r.raise_for_status() 如果不是200,產生異常 requests.HTTPError
(3)通用代碼框架
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "產生異常"
if _name_="_main_":
url="http://www.baidu.com"
print(getHTMLText(url))
6.HTTP協議
(1)URL格式如下:http://host[:port][path]
host: 合法的Internet主機域名或IP地址
port: 端口號,缺省端口為80
path: 請求資源的路徑
(2)http協議對資源的操作
GET 請求獲取URL位置的資源
HEAD 請求獲取URL位置資源的響應消息報告,即獲得該資源的頭部信息
POST 請求向URL位置的資源后附加新的數據
PUT 請求向URL位置存儲一個資源,覆蓋原URL位置的資源
PATCH 請求局部更新URL位置的資源,即改變該處資源的部分內容
DELETE 請求刪除URL位置存儲的資源
向URL POST一個字典自動編碼為form(表單)
向URL POST一個字符串自動編碼為data
7.requests庫的主要方法
(1)requests.request(method, url, **kwargs)
∙ method : 請求方式,對應get/put/post等7種
∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 控制訪問的參數,共13個
∙ method : 請求方式
r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('delete', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)
**kwargs: 控制訪問的參數,均為可選項
params : 字典或字節序列,作為參數增加到url中:
data : 字典、字節序列或文件對象,作為Request的內容
json : JSON格式的數據,作為Request的內容
headers : 字典,HTTP定制頭
cookies : 字典或CookieJar,Request中的cookie
auth : 元組,支持HTTP認證功能
files : 字典類型,傳輸文件
timeout : 設定超時時間,秒為單位
proxies : 字典類型,設定訪問代理服務器,可以增加登錄認證
allow_redirects : True/False,默認為True,重定向開關
stream : True/False,默認為True,獲取內容立即下載開關
verify : True/False,默認為True,認證SSL證書開關
cert : 本地SSL證書路徑
(2)requests.get(url, params=None, **kwargs)
∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數,字典或字節流格式,可選
∙ **kwargs: 12個控制訪問的參數
(3)requests.head(url, **kwargs)
∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數
(4)requests.post(url, data=None, json=None, **kwargs)
∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件,Request的內容
∙ json : JSON格式的數據,Request的內容
∙ **kwargs: 12個控制訪問的參數
(5)requests.put(url, data=None, **kwargs)
∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件,Request的內容
∙ **kwargs: 12個控制訪問的參數
(6)requests.patch(url, data=None, **kwargs)
∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件,Request的內容
∙ **kwargs: 12個控制訪問的參數
(7)requests.delete(url, **kwargs)
∙ url : 擬刪除頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數