Python爬蟲總結——常見的報錯、問題及解決方案

本文轉載自查看原文 2019-12-25 10:43 1653 爬蟲/ 第三方庫/ error/ 數據處理/ 數據分析與挖掘/ Python

在爬蟲開發時，我們時常會遇到各種BUG各種問題，下面是我初步匯總的一些報錯和解決方案。
在以后的學習中，如果遇到其他問題，我也會在這里進行更新。
各位如有什么補充，歡迎評論區留言~~~

IP被封，或者因訪問頻率太高被攔截？？？

使用代理IP即可。

正確使用XPath之后並沒有輸出？？？

XPath只能提取未注釋的代碼，改用正則表達式即可。

容易被反爬搞死？？？

headers中都要帶上User-Agent，而Cookie能不帶則不帶。

在這里插入圖片描述
UTF-8不能處理字節？？？

在headers中加入Cookie即可輸出正常的HTML。

在這里插入圖片描述
‘ gbk ’不能處理‘ \xa0 ’ ？？？

with open('%s.html' % title, 'w', encoding='utf-8') as f:
    f.write(rep)

在這里插入圖片描述
輸出結果是字節類型，json對象無法正常顯示？？？

使用json.loads方法即可。

url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'

網址復制到py文件中，卻變成了“亂碼”？？？

調用urllib.parse.unquote進行URL解碼即可。

在這里插入圖片描述
URL地址不規范？？？

分析URL時，我們一般從第二頁開始分析，而不是第一頁。

不想Cookie中攜帶自身賬號內容？？？

利用瀏覽器的無痕窗口功能，進入網頁再取Cookie即可。

未完待續哦~~~~

為我心愛的女孩~~

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 新手常見的python報錯及解決方案 python相對導入常見問題和解決方案 selenium常見報錯及解決方案 scrapy爬蟲學習系列七：scrapy常見問題解決方案 SVN常見問題及解決方案 Linux常見問題及解決方案 informatica 常見問題及解決方案 Spark常見的問題以及解決方案 Redis常見問題及解決方案 Mycat常見問題與解決方案