python網絡爬蟲與信息提取——1.requests庫入門


1.更多信息http://www.python-requests.org

2.安裝:Win平台: “以管理員身份運行”cmd,執行 pip install requests

3.requests庫的七個主要方法:

requests.request() 構造一個請求,支撐以下各方法的基礎方法
requests.get() 獲取HTML網頁的主要方法,對應於HTTP的GET
requests.head() 獲取HTML網頁頭信息的方法,對應於HTTP的HEAD
requests.post() 向HTML網頁提交POST請求的方法,對應於HTTP的POST
requests.put() 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT
requests.patch() 向HTML網頁提交局部修改請求,對應於HTTP的PATCH
requests.delete() 向HTML頁面提交刪除請求,對應於HTTP的DELETE

4.get()方法

(1)r = requests.get(url)

get(url)構造一個向服務器請求資源的Request對象

r返回一個包含服務器資源的Response對象

(2)requests.get(url, params=None, **kwargs)
∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數,字典或字節流格式,可選
∙ **kwargs: 12個控制訪問的參數

(3)Response 對象的屬性:

r.status_code       HTTP請求的返回狀態,200表示連接成功,404表示失敗
r.text           HTTP響應內容的字符串形式,即,url對應的頁面內容
r.encoding            從HTTP header中猜測的響應內容編碼方式
r.apparent_encoding     從內容中分析出的響應內容編碼方式(備選編碼方式)
r.content         HTTP響應內容的二進制形式

r.encoding:如果header中不存在charset,則認為編碼為ISO‐8859‐1
r.text根據r.encoding顯示網頁內容
r.apparent_encoding:根據網頁內容分析出的編碼方式可以看作是r.encoding的備選

5.爬取網頁的通用代碼框架

(1)requests異常

requests.ConnectionError 網絡連接錯誤異常,如DNS查詢失敗、拒絕連接等
requests.HTTPError HTTP錯誤異常
requests.URLRequired URL缺失異常
requests.TooManyRedirects 超過最大重定向次數,產生重定向異常
requests.ConnectTimeout 連接遠程服務器超時異常
requests.Timeout 請求URL超時,產生超時異常

(2)Response異常

r.raise_for_status() 如果不是200,產生異常 requests.HTTPError

(3)通用代碼框架

import requests

def getHTMLText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return "產生異常"

if _name_="_main_":

    url="http://www.baidu.com"

    print(getHTMLText(url))

6.HTTP協議

(1)URL格式如下:http://host[:port][path]
host: 合法的Internet主機域名或IP地址
port: 端口號,缺省端口為80
path: 請求資源的路徑

 (2)http協議對資源的操作

GET 請求獲取URL位置的資源
HEAD 請求獲取URL位置資源的響應消息報告,即獲得該資源的頭部信息
POST 請求向URL位置的資源后附加新的數據
PUT 請求向URL位置存儲一個資源,覆蓋原URL位置的資源
PATCH 請求局部更新URL位置的資源,即改變該處資源的部分內容
DELETE 請求刪除URL位置存儲的資源

向URL POST一個字典自動編碼為form(表單)

向URL POST一個字符串自動編碼為data

7.requests庫的主要方法

(1)requests.request(method, url, **kwargs)
∙ method : 請求方式,對應get/put/post等7種
∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 控制訪問的參數,共13個

∙ method : 請求方式
r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('delete', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

**kwargs: 控制訪問的參數,均為可選項
params : 字典或字節序列,作為參數增加到url中:

data    : 字典、字節序列或文件對象,作為Request的內容

 

json : JSON格式的數據,作為Request的內容

headers : 字典,HTTP定制頭

cookies : 字典或CookieJar,Request中的cookie

auth : 元組,支持HTTP認證功能

files   : 字典類型,傳輸文件

timeout : 設定超時時間,秒為單位

proxies : 字典類型,設定訪問代理服務器,可以增加登錄認證

allow_redirects : True/False,默認為True,重定向開關

stream  : True/False,默認為True,獲取內容立即下載開關

verify  : True/False,默認為True,認證SSL證書開關

cert    : 本地SSL證書路徑

(2)requests.get(url, params=None, **kwargs)

∙ url : 擬獲取頁面的url鏈接
∙ params : url中的額外參數,字典或字節流格式,可選
∙ **kwargs: 12個控制訪問的參數

(3)requests.head(url, **kwargs)

∙ url : 擬獲取頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數

(4)requests.post(url, data=None, json=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data  : 字典、字節序列或文件,Request的內容
∙ json : JSON格式的數據,Request的內容
∙ **kwargs: 12個控制訪問的參數

(5)requests.put(url, data=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data  : 字典、字節序列或文件,Request的內容
∙ **kwargs: 12個控制訪問的參數

(6)requests.patch(url, data=None, **kwargs)

∙ url : 擬更新頁面的url鏈接
∙ data  : 字典、字節序列或文件,Request的內容
∙ **kwargs: 12個控制訪問的參數

(7)requests.delete(url, **kwargs)

∙ url : 擬刪除頁面的url鏈接
∙ **kwargs: 12個控制訪問的參數

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM