摘要

requests是一個封裝了python自帶的urllib模塊的一個易用型模塊，它使得程序員對發送請求和獲取響應等http操作的代碼編寫更加簡單。

說明

以下代碼均默認已導入相關模塊：

import requests

獲取頁面

基本步驟如下：

設置請求頭信息，一般是改變user-agent
通過get()方法獲取頁面信息
判斷是否發生異常
如無異常返回頁面的文本或者二進制信息

以下是一個獲取目標頁面的方法：

    def getHTMLText(url):
    '獲取目標頁面'
    try:
        kv = {"user-agent":"Mozilla/5.0"} # 設置user-agent
        r = requests.get(url, timeout=30) # 獲取頁面，設置超時時間為30s
        r.raise_for_status() # 如果狀態碼不是200，引發HTTPError異常
        r.encoding = r.apparent_encoding  # 設置編碼會頁面的正確編碼
        return r.text  # 如果需要二進制信息，應該使用r.content
    except:
        return '產生異常'

上面代碼實現了一個獲取目標頁面的方法，我們可以使用這個方法進行一些測試，比如：

訪問京東的一個商品頁面：

    url = "https://item.jd.com/2967929.html"
    text = getHTMLText(url)
    print(text[:1000]) # 輸出前面1000個字符的信息

訪問亞馬遜的一個商品頁面：

    url = "https://www.amazon.cn/dp/B0083DP0CY?_encoding=UTF8&ref_=pc_cxrd_658409051_recTab_658409051_t_1&pf_rd_p=610d12d5-867d-4582-81bc-05492d242e3f&pf_rd_s=merchandised-search-3&pf_rd_t=101&pf_rd_i=658409051&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=QT2Q1KC61VNBDYMHX928&pf_rd_r=QT2Q1KC61VNBDYMHX928&pf_rd_p=610d12d5-867d-4582-81bc-05492d242e3f"
    text = getHTMLText(url)
    print(text[:1000]) # 輸出前面1000個字符的信息

可以發現，上面兩個例子的代碼除了url外是相同的，不過這兩個網站實際上又是有所不同的，就是京東不會限制python程序的訪問，而亞馬遜會。在這里，網站服務器是通過判斷請求頭的User-Agent字段來判斷是否是瀏覽器訪問，如果不是，可能會被網站禁止訪問。所有，最好在發送請求之前先設置好User-Agent。
User-Agent的設置：r = requests.get(url, headers={"User-Agent":"Mozilla/5.0"})
查看當前請求頭信息：r.headers

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲初識和request使用爬蟲request庫規則與實例爬蟲與Python：（三）基本庫的使用——3.網絡請求庫之request使用介紹 Request庫基本使用 request庫基本使用 jmeter JDBC Request （查詢數據庫獲取數據庫數據）的使用爬蟲技術（六）-- 使用HtmlAgilityPack獲取頁面鏈接（附c#代碼及插件下載）爬蟲技術 -- 進階學習（九）使用HtmlAgilityPack獲取頁面鏈接（附c#代碼及插件下載）《爬蟲學習》（二）（urllib庫使用） Python爬蟲之requests庫的使用