我是對於xxxx小說網進行爬取只講思路不展示代碼
請見諒
一.涉及到的反爬
-
js加密
-
css加密
-
請求頭中的
User-Agent
以及 cookie
二.思路
1.對於js加密
對於有js加密信息,我們一般就是找到他加密的js
使用execjs
模塊來執行js代碼即可
怎么找可以參考我之前對於知乎的爬取
2.對於css加密
常見的css加密就是加css樣式中的before
或者after
來插入內容
所有呢我們一般使用
from request-html import html
然后利用字符串的拼接拼接成一個完整的html字符串
然后html = HTML(html=html字符串)
轉換成一個html對象
最后呢bingo調用html對象的render
執行js代碼
把藏屬性里的字符串拿出來
3.對於cookie
利用session
這個對象進行自動存儲cookie
三.pycharm打印機制的漏洞
這個爬小說時候會碰到
你print(response.text)
的時候為空
其實不一定是空,最好的方式再進行文件存儲