python爬蟲 - 爬蟲之針對http2.0的某網站爬取 - 修復版

本文轉載自查看原文 2021-05-22 11:53 1992 爬蟲/ python高級應用/ python

題外話

說明一下為什么叫修復版，我之前發了這篇文章，發現只有我自己能看：

這是我自己打開的我的博客首頁：

點進去：

這是我換了個瀏覽器之后打開的：

換了個瀏覽器，點進去：

很奇怪了，所以我就復制內容重新編輯了一份發布了，不去糾結了。

前言

需要網站的，私信我（不玩套路那種）

分析

首先打開這個網站，看到由cloudflare，心里戈登一下，不慌，接着看

找到接口，查看返回數據

拿到數據接口單獨請求會出現如下：

發現果然有cloundflare檢測

用火狐瀏覽器打開

然后用重放請求功能看看，正常請求

而且能正常拿數據

那我用postman測試：

很奇怪的不行

用代碼測試

也不行

有朋友說，哎，你這不是有返回數據嗎，仔細看哈，狀態碼時403，那說明返回的也多半不是真實數據，我知道有些確實用403狀態來偽造，其實返回的也是真實數據，但是這種事極少數的情況，而前面我們已經用瀏覽器測試了，確實是200才會返回真實數據

你這不覺得很奇怪嗎？瀏覽器正常請求，然后postman和代碼就是不行，而它請求參數里又沒有什么奇怪的參數，也是get請求，都是很簡單的東西

找到關鍵點

這個咋整呢？

我們再回去一步一步看看，找到個關鍵的東西：

http2.0啥東西呢？

可以看看下面兩個文字參考鏈接：

https://mp.weixin.qq.com/s/dFxyRYmqm5if8k-S1MjFJw

https://tding.top/archives/9bd92731.html

如果你覺得浪費時間的話，可以看我下面說的，精簡過的：

1. 現在很多爬蟲庫其實對 HTTP/2.0 支持得不好，比如大名鼎鼎的 Python 庫 —— requests，到現在為止還只支持 HTTP/1.1，啥時候支持 HTTP/2.0 還不知道。

2.Scrapy 框架最新版本 2.5.0（2021.04.06 發布）加入了對 HTTP/2.0 的支持，但是官網明確提示，現在是實驗性的功能，不推薦用到生產環境

插一句，Scrapy 中怎么支持 HTTP/2.0 呢？在 settings.py 里面換一下 Download Handlers 即可：
DOWNLOAD_HANDLERS = {
    'https': 'scrapy.core.downloader.handlers.http2.H2DownloadHandler',
}
當前 Scrapy 的 HTTP/2.0 實現的已知限制包括：

不支持 HTTP/2.0 明文（h2c），因為沒有主流瀏覽器支持未加密的 HTTP/2.0。

沒有用於指定最大幀大小大於默認值 16384 的設置，發送更大幀的服務器的連接將失敗。

不支持服務器推送。

不支持bytes_received和 headers_received信號。

關於其他的一些庫，也不必多說了，對 HTTP/2.0 的支持也不好，目前對 HTTP/2.0 支持得還可以的有 hyper 和 httpx，后者更加簡單易用一些