1 后來
我第一次聽到爬蟲這個詞的時候
以為是什么爬行的昆蟲...后來才知道
后來,
后來,我終於明白爬蟲是互聯網中數據抓取的用語
2 爬蟲趨勢
隨着大數據時代的來臨,網絡爬蟲在互聯網中的地位越來越重要
互聯網中的數據是海量的,網絡爬蟲可以為我們自動高效的獲取網絡中對我們有用的信息
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者)
就是一種按照一定的規則,自動得爬取網絡信息
這些規則我們稱之為網絡爬蟲算法
使用Python可以很方便地編寫出爬蟲程序,進行互聯網信息的自動化檢索。
搜索引擎離不開爬蟲,比如百度搜索引擎的爬蟲叫作百度蜘蛛(Baiduspider)。
百度蜘蛛每天會在海量的互聯網信息中進行爬取,爬取優質信息並收錄,當用戶在百度搜索引擎上檢索對應關鍵詞時,百度將對關鍵詞進行分析處理,從爬取到的數據中找出相關信息,按照相應的排名規則進行排序並將結果展現給用戶。
那么在這個過程中,百度蜘蛛起到了至關重要的作用。
那么,如何覆蓋互聯網中更多的優質網頁?
又如何篩選這些重復的頁面?
這些都是由百度蜘蛛爬蟲的算法決定的。
采用不同的算法,爬蟲的運行效率會不同,爬取結果也會有所差異。
除了百度搜索引擎離不開爬蟲以外,其他搜索引擎也離不開爬蟲,它們也擁有自己的爬蟲。
比如360的爬蟲叫360Spider,搜狗的爬蟲叫Sogouspider。
大數據時代已離不開爬蟲
從搜索巨頭到人工智能巨頭,這是一條波瀾壯闊的路
而我們應該看到,事情的源頭,卻是我們今日所書寫的“爬蟲”。
所以在未來,爬蟲的地位會越來越重要
3 爬蟲能干什么
爬蟲能做很多事,能做商業分析,也能做生活助手
比如:
1 想買房,可以分析上海近兩年二手房成交均價是多少,優惠以及交易記錄
2 女朋友的領導下發任務,要求收集100條招聘信息,第二天檢查
她熬夜百度復制粘貼到半夜,心疼死了。。。
3 突然發現某奇藝的會員視頻要過期了,趕緊爬下來
4 想看一下最近的熱門電影,聽一下最近的熱門歌曲等
5 喜歡看美女,妹紙圖一張一張翻太累了
6 七夕到了,送女朋友什么能讓她開心
7 約了女朋友吃飯,上海哪家餐廳的菜最好吃?
8 最近離職了,上海的Python工程師平均薪資是多少?等等。
這是個人利用爬蟲所做到的事情
而公司,同樣可以利用爬蟲來實現巨大的商業價值
比如我們剛才所說的搜索引擎——百度和谷歌,它們的核心技術之一也是爬蟲,而且是超級爬蟲。
爬蟲還讓這些搜索巨頭有機會朝着人工智能的未來邁進,因為人工智能的發展離不開海量的數據。而每天使用這些搜索網站的用戶都是數以億計的,產生的數據自然也是難以計量的。