爬蟲的一個重要步驟就是頁面解析與數據提取。更多內容請參考:Python學習指南
頁面解析與數據提取
實際上爬蟲一共就四個主要步驟:
- 定(要知道你准備在哪個范圍或者網站去搜索)
- 爬(將所有的網站的內容全部爬下來)
- 取(分析數據,去掉對我們沒用處的數據)
- 存(按照我們想要的方式存儲和使用)
- 表(可以根據數據的類型通過一些圖標展示)
以前學的就是如何從網站去爬數據,而爬下來的數據卻沒做分析,現在,就開始對數據做一些分析。
數據,可分為非結構化數據
和結構化數據
- 非結構化數據:先有數據,再有結構
- 結構化數據:先有結構,再有數據
- 不同類型的數據,我們需要采用不同的方式來處理
非結構化的數據處理
文本、電話號碼、郵箱地址
- 正則表達式Python正則表達式
HTML文件
- 正則表達式
- XPath
- CSS選擇器
結構化的數據處理
JSON文件
- JSON Path
- 轉化為Python類型進行操作(json類)
XML文件
- 轉化為Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式