爬蟲的難點?什么是高級的爬蟲?


爬蟲的難點

1,數據量小,其實沒什么,難在數據量大了怎么辦?百萬級別的呢?

2,數據量大了還好,但是還要效率呢?短時間內要大量數據

3,這些都還好,但是還要穩定性呢,你的爬蟲系統穩定嗎?這是一個難點,

4,這些都還好,還有就是別人有反爬蟲,這是難點,因為爬蟲是有成本了,目的是低成本的獲取你想要的數據,成本太高就不划算了,

這是四個難點,

5,有反爬蟲還可以,最怕別人盯上你了,針對你反爬蟲,這個級別也比較高了,你的爬蟲威脅到了別人,

6,還有就是違法,但是你到這個級別也厲害了,你已經爬到了別人的機密,核心數據,

 

 

什么是高級的爬蟲?

1,解決疑難問題,包括反爬蟲,驗證碼問題,處理賬號限制,模擬登陸,這是涉及反爬蟲的問題了,

2,js逆向,app逆向

3,http協議,數據抓包,分析

4,熟悉數據庫,數據庫調優,海量數據處理經驗,mysql,redis,mangodb,這是涉及到處理海量數據的問題了,

5,分布式爬蟲,消息隊列,這就是涉及到爬蟲的效率問題了,

6,通用爬蟲系統,--系統的穩定性的問題,

 

 

為什么做爬蟲?

1,喜歡,

2,爬蟲是數據,數據是互聯網的基石之一,我認為互聯網有幾個基石,用戶,數據,技術,

3,能做,往后的發展是數據分析,數據挖掘,人工只能,這是未來,我從最基礎的做起,

 

爬蟲的技術架構

1,python

2,前端

3,Django

4,數據庫

5,Linux

6,框架

7,中間件,消息隊列,redis,celery,

 

 

 

 

 

 

###


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM