python網絡爬蟲與信息提取——1.requests庫入門

本文轉載自查看原文 2018-02-26 16:41 1011 python基礎

1.更多信息http://www.python-requests.org

2.安裝：Win平台: “以管理員身份運行”cmd，執行 pip install requests

3.requests庫的七個主要方法：

requests.request() 構造一個請求，支撐以下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法，對應於HTTP的GET
requests.head() 獲取HTML網頁頭信息的方法，對應於HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法，對應於HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法，對應於HTTP的PUT
requests.patch() 向HTML網頁提交局部修改請求，對應於HTTP的PATCH
requests.delete() 向HTML頁面提交刪除請求，對應於HTTP的DELETE

4.get（）方法

（1）r = requests.get(url)

get(url)構造一個向服務器請求資源的Request對象

r返回一個包含服務器資源的Response對象

（2）requests.get(url, params=None, **kwargs)
∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數，字典或字節流格式，可選
∙ **kwargs: 12個控制訪問的參數

（3）Response 對象的屬性：

r.status_code 　　　　　　HTTP請求的返回狀態，200表示連接成功，404表示失敗
r.text 　　　　　　　　　　HTTP響應內容的字符串形式，即，url對應的頁面內容
r.encoding　　　　　　從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding　　從內容中分析出的響應內容編碼方式（備選編碼方式）
r.content 　　　　　　　　HTTP響應內容的二進制形式

r.encoding：如果header中不存在charset，則認為編碼為ISO‐8859‐1
r.text根據r.encoding顯示網頁內容
r.apparent_encoding：根據網頁內容分析出的編碼方式可以看作是r.encoding的備選

5.爬取網頁的通用代碼框架

（1）requests異常

requests.ConnectionError 網絡連接錯誤異常，如DNS查詢失敗、拒絕連接等
requests.HTTPError HTTP錯誤異常
requests.URLRequired URL缺失異常
requests.TooManyRedirects 超過最大重定向次數，產生重定向異常
requests.ConnectTimeout 連接遠程服務器超時異常
requests.Timeout 請求URL超時，產生超時異常

（2）Response異常

r.raise_for_status() 如果不是200，產生異常 requests.HTTPError

（3）通用代碼框架

import requests

def getHTMLText(url):

try:

r=requests.get(url,timeout=30)

r.raise_for_status()

r.encoding=r.apparent_encoding

return r.text

except:

return "產生異常"

if _name_="_main_":

url="http://www.baidu.com"

print(getHTMLText(url))

6.HTTP協議

（1）URL格式如下：http://host[:port][path]
host: 合法的Internet主機域名或IP地址
port: 端口號，缺省端口為80
path: 請求資源的路徑

（2）http協議對資源的操作

GET 請求獲取URL位置的資源
HEAD 請求獲取URL位置資源的響應消息報告，即獲得該資源的頭部信息
POST 請求向URL位置的資源后附加新的數據
PUT 請求向URL位置存儲一個資源，覆蓋原URL位置的資源
PATCH 請求局部更新URL位置的資源，即改變該處資源的部分內容
DELETE 請求刪除URL位置存儲的資源

向URL POST一個字典自動編碼為form（表單）

向URL POST一個字符串自動編碼為data

7.requests庫的主要方法

（1）requests.request(method, url, **kwargs)
∙ method : 請求方式，對應get/put/post等7種
∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 控制訪問的參數，共13個

∙ method : 請求方式
r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('delete', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

**kwargs: 控制訪問的參數，均為可選項
params : 字典或字節序列，作為參數增加到url中：

data : 字典、字節序列或文件對象，作為Request的內容

json : JSON格式的數據，作為Request的內容

headers : 字典，HTTP定制頭

cookies : 字典或CookieJar，Request中的cookie

auth : 元組，支持HTTP認證功能

files : 字典類型，傳輸文件

timeout : 設定超時時間，秒為單位

proxies : 字典類型，設定訪問代理服務器，可以增加登錄認證

allow_redirects : True/False，默認為True，重定向開關

stream : True/False，默認為True，獲取內容立即下載開關

verify : True/False，默認為True，認證SSL證書開關

cert : 本地SSL證書路徑

（2）requests.get(url, params=None, **kwargs)

∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數，字典或字節流格式，可選
∙ **kwargs: 12個控制訪問的參數

（3）requests.head(url, **kwargs)

∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數

（4）requests.post(url, data=None, json=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件，Request的內容
∙ json : JSON格式的數據，Request的內容
∙ **kwargs: 12個控制訪問的參數

（5）requests.put(url, data=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件，Request的內容
∙ **kwargs: 12個控制訪問的參數

（6）requests.patch(url, data=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data : 字典、字節序列或文件，Request的內容
∙ **kwargs: 12個控制訪問的參數

（7）requests.delete(url, **kwargs)

∙ url : 擬刪除頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。