python之爬蟲

本文轉載自查看原文 2019-06-15 11:16 3718

概述

近年來，隨着網絡應用的逐漸擴展和深入，如何高效的獲取網上數據成為了無數公司和個人的追求，在大數據時代，誰掌握了更多的數據，誰就可以獲得更高的利益，而網絡爬蟲是其中最為常用的一種從網上爬取數據的手段。
網絡爬蟲，即Web Spider，是一個很形象的名字。如果把互聯網比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。

爬蟲的價值

互聯網中最有價值的便是數據，比如天貓商城的商品信息，鏈家網的租房信息，雪球網的證券投資信息等等，這些數據都代表了各個行業的真金白銀，可以說，誰掌握了行業內的第一手數據，誰就成了整個行業的主宰，如果把整個互聯網的數據比喻為一座寶藏，那我們的爬蟲課程就是來教大家如何來高效地挖掘這些寶藏，掌握了爬蟲技能，你就成了所有互聯網信息公司幕后的老板，換言之，它們都在免費為你提供有價值的數據。

爬蟲學習目錄:

(一) jupyter notebook環境安裝

(二) Python網絡爬蟲相關基礎概念

(三) http和https協議

(四) Python網絡爬蟲之requests模塊一

(五) Python網絡爬蟲之三種數據解析方式

(六) Python網絡爬蟲之requests模塊二

(七) 驗證碼處理

(八) Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

(九) 高性能異步爬蟲

(十) scrapy框架簡介和基礎應用

(十一) scrapy框架持久化存儲