今天准備爬取某某點評店鋪信息時,遇到了『字體』反爬。比如這樣的:
還有這樣的:
可以看到這些字體已經被加密(反爬)
竟然遇到這種情況,那辰哥就帶大家如何去解決這類反爬(字體反爬類)
01 網頁分析
在開始分析反爬之前,先簡單的介紹一下背景(爬取的網頁)
辰哥爬取的某某點評的店鋪信息。一開始查看網頁源碼是這樣的
這種什么也看不到,咱們換另一種方式:通過程序直接把整個網頁源代碼保存下來
獲取到的網頁源碼如下:
比如這里看到評論數(4位數)都有對應着一個編號(相同的數字編號相同),應該是對應着網站的字體庫。
下一步,我們需要找到這個網站的字體庫。
02 獲取字體庫
這里的字體庫建議在目標網站里面去獲取,因為不同的網站的字體庫是不一樣,導致解碼還原的字體也會不一樣。
1、抓包獲取字體庫
在瀏覽器network里面可以看到一共有三種字體庫。(三種字體庫各有不同的妙用,后面會有解釋)
把字體庫鏈接復制在瀏覽器里面打開,就可以把字體庫下載到本地。
2、查看字體庫
這里使用FontCreator的工具查看字體庫。
下載地址:
https://www.high-logic.com/font-editor/fontcreator/download
這里需要注冊,郵箱驗證才能下載,不過辰哥已經下載了,可以在公眾號回復:FC,獲取安裝包。
安裝之后,把剛剛下載的字體庫在FontCreator中打開
可以看到字體的內容以及對應的編號。
比如數字7對應F399、數字8對應F572 ,咱們在原網頁和源碼對比,是否如此???
可以看到,真是一模一樣對應着解碼就可以還原字體。
3、為什么會有三個字體庫
在查看加密字體的CSS樣式時,方式有css內容是這樣的
字體庫1:d35c3812.woff 對應解碼class為 shopNum
字體庫2:084c9fff.woff 對應解碼class為 reviewTag和address
字體庫3:73f5e6f3.woff 對應解碼class為 tagName
也就是說,字體所屬的不同class標簽,對應的解密字體庫是不一樣的,辰哥這里不得不說一句:太雞賊了
咱們這里獲取的評論數,clas為shopNum,需要用到字體庫d35c3812.woff
03 代碼實現解密
1、加載字體庫
既然我們已經知道了字體反爬的原理,那么我們就可以開始編程實現解密還原。
加載字體庫的Python庫包是:fontTools ,安裝命令如下:
pip install fontTools
將字體庫的內容對應關系保存為xml格式
code和name是一一對應關系
可以看到網頁源碼中的編號后四位對應着字體庫的編號。
因此我們可以建立應該字體對應集合
建立好映射關系好,到網頁源碼中去進行替換
這樣我們就成功的將字體反爬處理完畢。后面提取內容大家基本都沒問題。
2、完整代碼
輸出結果:
可以看到加密的數字全部都還原了。
04 小結
辰哥在本文中主要講解了如此處理字體反爬問題,並以某某點評為例去實戰演示分析。辰哥在文中處理的數字類型,大家可以嘗試去試試中文如何解決。
為了大家方便學習,辰哥已經把本文的完整源碼上傳,需要的在公眾后台回復:字體反爬
不明白的地方可以在下方留言,一起交流。