Python爬蟲(九)_非結構化數據與結構化數據


爬蟲的一個重要步驟就是頁面解析與數據提取。更多內容請參考:Python學習指南

頁面解析與數據提取

實際上爬蟲一共就四個主要步驟:

  1. 定(要知道你准備在哪個范圍或者網站去搜索)
  2. 爬(將所有的網站的內容全部爬下來)
  3. 取(分析數據,去掉對我們沒用處的數據)
  4. 存(按照我們想要的方式存儲和使用)
  5. 表(可以根據數據的類型通過一些圖標展示)

以前學的就是如何從網站去爬數據,而爬下來的數據卻沒做分析,現在,就開始對數據做一些分析。

數據,可分為非結構化數據結構化數據

  • 非結構化數據:先有數據,再有結構
  • 結構化數據:先有結構,再有數據
  • 不同類型的數據,我們需要采用不同的方式來處理

非結構化的數據處理

文本、電話號碼、郵箱地址

HTML文件

  • 正則表達式
  • XPath
  • CSS選擇器

結構化的數據處理

JSON文件

  • JSON Path
  • 轉化為Python類型進行操作(json類)

XML文件

  • 轉化為Python類型(xmltodict)
  • XPath
  • CSS選擇器
  • 正則表達式


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM