一、簡介爬蟲
1.什么是爬蟲
#1、什么是互聯網? 互聯網是由網絡設備(網線,路由器,交換機,防火牆等等)和一台台計算機連接而成,像一張網一樣。 #2、互聯網建立的目的? 互聯網的核心價值在於數據的共享/傳遞:數據是存放於一台台計算機上的,而將計算機互聯到一起的目的就是為了能夠方便彼此之間的數據共享/傳遞,否則你只能拿U盤去別人的計算機上拷貝數據了。 #3、什么是上網?爬蟲要做的是什么? 我們所謂的上網便是由用戶端計算機發送請求給目標計算機,將目標計算機的數據下載到本地的過程。 #3.1 只不過,用戶獲取網絡數據的方式是: 瀏覽器提交請求->下載網頁代碼->解析/渲染成頁面。 #3.2 而爬蟲程序要做的就是: 模擬瀏覽器發送請求->下載網頁代碼->只提取有用的數據->存放於數據庫或文件中 #3.1與3.2的區別在於: 我們的爬蟲程序只提取網頁代碼中對我們有用的數據 #4、總結爬蟲 #4.1 爬蟲的比喻: 如果我們把互聯網比作一張大的蜘蛛網,那一台計算機上的數據便是蜘蛛網上的一個獵物,而爬蟲程序就是一只小蜘蛛,沿着蜘蛛網抓取自己想要的獵物/數據 #4.2 爬蟲的定義: 向網站發起請求,獲取資源后分析並提取有用數據的程序 #4.3 爬蟲的價值: 互聯網中最有價值的便是數據,比如天貓商城的商品信息,鏈家網的租房信息,雪球網的證券投資信息等等,這些數據都代表了各個行業的真金白銀,可以說,誰掌握了行業內的第一手數據,誰就成了整個行業的主宰,如果把整個互聯網的數據比喻為一座寶藏,那我們的爬蟲課程就是來教大家如何來高效地挖掘這些寶藏,掌握了爬蟲技能,你就成了所有互聯網信息公司幕后的老板,換言之,它們都在免費為你提供有價值的數據。
2.爬蟲的基本原理
#1、發起請求 使用http庫向目標站點發起請求,即發送一個Request Request包含:請求頭、請求體等 #2、獲取響應內容 如果服務器能正常響應,則會得到一個Response Response包含:html,json,圖片,視頻等 #3、解析內容 解析html數據:正則表達式,第三方解析庫如Beautifulsoup,pyquery等 解析json數據:json模塊 解析二進制數據:以b的方式寫入文件 #4、保存數據 數據庫 文件
3.Request
#1、請求方式: 常用的請求方式:GET,POST 其他請求方式:HEAD,PUT,DELETE,OPTHONS ps:用瀏覽器演示get與post的區別,(用登錄演示post) post與get請求最終都會拼接成這種形式:k1=xxx&k2=yyy&k3=zzz post請求的參數放在請求體內: 可用瀏覽器查看,存放於form data內 get請求的參數直接放在url后 #2、請求url url全稱統一資源定位符,如一個網頁文檔,一張圖片 一個視頻等都可以用url唯一來確定 url編碼 https://www.baidu.com/s?wd=圖片 圖片會被編碼(看示例代碼) 網頁的加載過程是: 加載一個網頁,通常都是先加載document文檔, 在解析document文檔的時候,遇到鏈接,則針對超鏈接發起下載圖片的請求 #3、請求頭 User-agent:請求頭中如果沒有user-agent客戶端配置, 服務端可能將你當做一個非法用戶 host cookies:cookie用來保存登錄信息 一般做爬蟲都會加上請求頭 #4、請求體 如果是get方式,請求體沒有內容 如果是post方式,請求體是format data ps: 1、登錄窗口,文件上傳等,信息都會被附加到請求體內 2、登錄,輸入錯誤的用戶名密碼,然后提交,就可以看到post,正確登錄后頁面通常會跳轉,無法捕捉到post
4.Response
#1、響應狀態 200:代表成功 301:代表跳轉 404:文件不存在 403:權限 502:服務器錯誤 #2、Respone header set-cookie:可能有多個,是來告訴瀏覽器,把cookie保存下來 #3、preview就是網頁源代碼 最主要的部分,包含了請求資源的內容 如網頁html,圖片 二進制數據等
二、requests庫
三、selenium庫
四、BeautifulSoup庫
五、Scrapy框架