python爬蟲爬小說網站涉及到(js加密,CSS加密)


我是對於xxxx小說網進行爬取只講思路不展示代碼請見諒

一.涉及到的反爬

  • js加密

  • css加密

  • 請求頭中的User-Agent以及 cookie

二.思路

1.對於js加密

對於有js加密信息,我們一般就是找到他加密的js

使用execjs模塊來執行js代碼即可

怎么找可以參考我之前對於知乎的爬取

鏈接點我

2.對於css加密

常見的css加密就是加css樣式中的before或者after來插入內容

所有呢我們一般使用

from request-html import html

然后利用字符串的拼接拼接成一個完整的html字符串

然后html = HTML(html=html字符串)轉換成一個html對象

最后呢bingo調用html對象的render執行js代碼把藏屬性里的字符串拿出來

3.對於cookie

利用session這個對象進行自動存儲cookie

三.pycharm打印機制的漏洞

這個爬小說時候會碰到

print(response.text)的時候為空

其實不一定是空,最好的方式再進行文件存儲


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM