爬蟲的難點
1,數據量小,其實沒什么,難在數據量大了怎么辦?百萬級別的呢?
2,數據量大了還好,但是還要效率呢?短時間內要大量數據
3,這些都還好,但是還要穩定性呢,你的爬蟲系統穩定嗎?這是一個難點,
4,這些都還好,還有就是別人有反爬蟲,這是難點,因為爬蟲是有成本了,目的是低成本的獲取你想要的數據,成本太高就不划算了,
這是四個難點,
5,有反爬蟲還可以,最怕別人盯上你了,針對你反爬蟲,這個級別也比較高了,你的爬蟲威脅到了別人,
6,還有就是違法,但是你到這個級別也厲害了,你已經爬到了別人的機密,核心數據,
什么是高級的爬蟲?
1,解決疑難問題,包括反爬蟲,驗證碼問題,處理賬號限制,模擬登陸,這是涉及反爬蟲的問題了,
2,js逆向,app逆向
3,http協議,數據抓包,分析
4,熟悉數據庫,數據庫調優,海量數據處理經驗,mysql,redis,mangodb,這是涉及到處理海量數據的問題了,
5,分布式爬蟲,消息隊列,這就是涉及到爬蟲的效率問題了,
6,通用爬蟲系統,--系統的穩定性的問題,
為什么做爬蟲?
1,喜歡,
2,爬蟲是數據,數據是互聯網的基石之一,我認為互聯網有幾個基石,用戶,數據,技術,
3,能做,往后的發展是數據分析,數據挖掘,人工只能,這是未來,我從最基礎的做起,
爬蟲的技術架構
1,python
2,前端
3,Django
4,數據庫
5,Linux
6,框架
7,中間件,消息隊列,redis,celery,
###