在學習爬蟲時,爬蟲報了如下類型的錯誤,即被遠程主機強制關閉了鏈接。
分析原因:
頻繁的請求服務器,導致服務器發爬蟲的懷疑,被網站認定為攻擊行為,最終拋出 10054異常。
解決方法:
1、在各個請求之間添加隨機延時等待;
2、每次請求數據處理完成后,使用 response.close() 關閉;
3、隨機使用不同的User-Agent;
4、使用IP代理
分析原因,是因為使用urlopen方法太過頻繁,引起遠程主機的懷疑,被網站認定為是攻擊行為。導致urlopen()后,request.read()一直卡死在那里。最后拋出10054異常