Python爬蟲總結——常見的報錯、問題及解決方案



在爬蟲開發時,我們時常會遇到各種BUG各種問題,下面是我初步匯總的一些報錯和解決方案。
在以后的學習中,如果遇到其他問題,我也會在這里進行更新。
各位如有什么補充,歡迎評論區留言~~~



問題:

IP被封,或者因訪問頻率太高被攔截???

解決方案之一:

使用代理IP即可。


問題:

正確使用XPath之后並沒有輸出???

解決方案之一:

XPath只能提取未注釋的代碼,改用正則表達式即可。


問題:

容易被反爬搞死???

解決方案之一:

headers中都要帶上User-Agent,而Cookie能不帶則不帶。


報錯:

在這里插入圖片描述
UTF-8不能處理字節???

解決方案之一:

在headers中加入Cookie即可輸出正常的HTML。


報錯:

在這里插入圖片描述
‘ gbk ’不能處理‘ \xa0 ’ ???

解決方案之一:
with open('%s.html' % title, 'w', encoding='utf-8') as f:
    f.write(rep)

問題:

在這里插入圖片描述
輸出結果是字節類型,json對象無法正常顯示???

解決方案之一:

使用json.loads方法即可。


問題:

url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'

網址復制到py文件中,卻變成了“亂碼”???

解決方案之一:

調用urllib.parse.unquote進行URL解碼即可。


問題:

在這里插入圖片描述
URL地址不規范???

解決方案之一:

分析URL時,我們一般從第二頁開始分析,而不是第一頁。


問題:

不想Cookie中攜帶自身賬號內容???

解決方案之一:

利用瀏覽器的無痕窗口功能,進入網頁再取Cookie即可。


報錯:

解決方案之一:

報錯:

解決方案之一:



未完待續哦~~~~



為我心愛的女孩~~



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM