Python爬蟲三 Requests庫爬取亞馬遜報503錯誤

本文轉載自查看原文 2020-03-08 20:48 1725 Python爬蟲

代碼

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text[:10000]
    except Exception as err:
        return str(err)

if __name__ == '__main__':
    url = 'https://www.amazon.cn/dp/B077B7Z1C1?ref_=Oct_DotdV2_PC_2_GS_DOTD_56a14cb3&pf_rd_r=XF9AG6HRPAWC2MGNWJQ8&pf_rd_p=8c48638a-3752-448a-8685-5a17153fb132&pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-2'
    print(getHTMLText(url))

報503錯誤

原因

亞馬遜對請求來源進行審查
我們的Requests庫會忠實的告訴亞馬遜請求來源為‘python-requests/2.11.1’

解決辦法

import requests
def getHTMLText(url):
    try:
        kv = {'user-agent': 'Mozilla/5.0'}
        r = requests.get(url, headers=kv, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text[:3000]
    except Exception as err:
        return str(err)

if __name__ == '__main__':
    url = 'https://www.amazon.cn/dp/B077B7Z1C1?ref_=Oct_DotdV2_PC_2_GS_DOTD_56a14cb3&pf_rd_r=XF9AG6HRPAWC2MGNWJQ8&pf_rd_p=8c48638a-3752-448a-8685-5a17153fb132&pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-2'
    print(getHTMLText(url))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python requests庫網頁爬取小實例：亞馬遜商品頁面的爬取爬蟲之亞馬遜爬取 16-python爬蟲之Requests庫爬取海量圖片 python requests庫爬取視頻【python】第一個爬蟲：用requests庫爬取網頁內容爬蟲與Python：（三）基本庫的使用——擴展:requests爬取陽光電影網源碼 python3爬蟲-使用requests爬取起點小說 python3爬蟲-通過requests爬取西刺代理 python爬蟲---實現項目(一) Requests爬取HTML信息用python爬取亞馬遜物品列表