數據挖掘-EDA(Exploratory Data Analysis)


定義

  探索性數據分析(Exploratory Data Analysis,EDA)是指對已有數據在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。一般有以下幾個目的:

  • 弄清楚數據的含義
  • 發現數據的結構
  • 鎖定一些重要的特征(通過觀察該特征不同值對應的label是不是有區別,同一個特征的不同取值label的分布差別越大,這個特征越有效)
  • 異常值以及離群數據的檢測(類別極致不平衡以及方差很小
  • 結合行業背景選擇合適的模型

常用方法

  • 繪圖方法

    1. 對原始數據繪圖

    2. 繪制原始數據的一些統計學圖(箱型圖、小提琴圖、直方圖等)

    3. 多特征對比性繪圖(查看不同的特征之間的關系)

  • 量化方法

    1. 計算偏度和鋒度

    2. 區間估計

    3. 分類類型

 

繪圖方法

    

 

   

 

   

 

   

 

     

 

量化方法:

  • 相關性分析

      先定義三類變量:

      1. 定類變量: 通過該變量可以進行分類,但是該變量沒有實際的數值意義(例如性別,城市)。

      2. 定序變量: 不僅可以用來分類,還按某種規律排序,不同的定序變量可以比較大小,有排序的能力,但是之間的差值沒有意義(例如消費能力,教育程度)。

      3. 定距變量: 可以比較大小,差值具有意義。(常見的連續變量,例如價格、購買數量)

      不同類型的方法相關性檢測的方法是不同的:

         

  • 獨立性分析

    利用MVtest檢驗兩個變量是否相關。

    

  最后補充一點決策樹是一個非參數方法。這意味着它不對數據的空間分布和分類結構做任何假設。而一般的多元線性模型假設各個特征之間是

不相關的,如果兩個特征的相關性過高則會有復共線性的影響,會降低多元線性模型的預測精度。

 

 

 

 

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM