定義
探索性數據分析(Exploratory Data Analysis,EDA)是指對已有數據在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。一般有以下幾個目的:
- 弄清楚數據的含義
- 發現數據的結構
- 鎖定一些重要的特征(通過觀察該特征不同值對應的label是不是有區別,同一個特征的不同取值label的分布差別越大,這個特征越有效)
- 異常值以及離群數據的檢測(類別極致不平衡以及方差很小)
- 結合行業背景選擇合適的模型
常用方法
- 繪圖方法
1. 對原始數據繪圖
2. 繪制原始數據的一些統計學圖(箱型圖、小提琴圖、直方圖等)
3. 多特征對比性繪圖(查看不同的特征之間的關系)
- 量化方法
1. 計算偏度和鋒度
2. 區間估計
3. 分類類型
繪圖方法
量化方法:
- 相關性分析
先定義三類變量:
1. 定類變量: 通過該變量可以進行分類,但是該變量沒有實際的數值意義(例如性別,城市)。
2. 定序變量: 不僅可以用來分類,還按某種規律排序,不同的定序變量可以比較大小,有排序的能力,但是之間的差值沒有意義(例如消費能力,教育程度)。
3. 定距變量: 可以比較大小,差值具有意義。(常見的連續變量,例如價格、購買數量)
不同類型的方法相關性檢測的方法是不同的:
- 獨立性分析
利用MVtest檢驗兩個變量是否相關。
最后補充一點決策樹是一個非參數方法。這意味着它不對數據的空間分布和分類結構做任何假設。而一般的多元線性模型假設各個特征之間是
不相關的,如果兩個特征的相關性過高則會有復共線性的影響,會降低多元線性模型的預測精度。