scrapy爬蟲遇到爬取頁面時302重定向導致response頁面與實際需要爬取的頁面信息不一致,導致無法正常獲取信息,查看日志存在 scrapy.downloadermiddlewares.redirect 。
解決方法:
有些網站需要檢查cookies頭部信息,這樣無需登錄就能進行訪問,所以可以在settings中添加頭部信息cookies,同時將cookies_enabled參數置為false,即可正常進行爬取操作
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
DEFAULT_REQUEST_HEADERS = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Language': 'zh-CN,zh;q=0.9',
'cookie':'xxxxxxxxx'
}