在爬蟲開發時,我們時常會遇到各種BUG各種問題,下面是我初步匯總的一些報錯和解決方案。
在以后的學習中,如果遇到其他問題,我也會在這里進行更新。
各位如有什么補充,歡迎評論區留言~~~
問題:
IP被封,或者因訪問頻率太高被攔截???
解決方案之一:
使用代理IP即可。
問題:
正確使用XPath之后並沒有輸出???
解決方案之一:
XPath只能提取未注釋的代碼,改用正則表達式即可。
問題:
容易被反爬搞死???
解決方案之一:
headers中都要帶上User-Agent,而Cookie能不帶則不帶。
報錯:
UTF-8不能處理字節???
解決方案之一:
在headers中加入Cookie即可輸出正常的HTML。
報錯:
‘ gbk ’不能處理‘ \xa0 ’ ???
解決方案之一:
with open('%s.html' % title, 'w', encoding='utf-8') as f:
f.write(rep)
問題:
輸出結果是字節類型,json對象無法正常顯示???
解決方案之一:
使用json.loads
方法即可。
問題:
url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'
網址復制到py文件中,卻變成了“亂碼”???
解決方案之一:
調用urllib.parse.unquote
進行URL解碼即可。
問題:
URL地址不規范???
解決方案之一:
分析URL時,我們一般從第二頁開始分析,而不是第一頁。
問題:
不想Cookie中攜帶自身賬號內容???
解決方案之一:
利用瀏覽器的無痕窗口功能,進入網頁再取Cookie即可。
報錯:
解決方案之一:
報錯:
解決方案之一:
未完待續哦~~~~
為我心愛的女孩~~