數據挖掘-EDA（Exploratory Data Analysis）

本文轉載自查看原文 2020-03-29 20:56 873 ML基礎

定義

　　探索性數據分析（Exploratory Data Analysis，EDA）是指對已有數據在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。一般有以下幾個目的：

常用方法

　　　　1. 對原始數據繪圖

　　　　2. 繪制原始數據的一些統計學圖（箱型圖、小提琴圖、直方圖等）

　　　　3. 多特征對比性繪圖（查看不同的特征之間的關系）

　　　　1. 計算偏度和鋒度

　　　　2. 區間估計

　　　　3. 分類類型

繪圖方法

量化方法：

　　　　先定義三類變量:

　　　　 1. 定類變量: 通過該變量可以進行分類，但是該變量沒有實際的數值意義（例如性別，城市）。

　　　　 2. 定序變量: 不僅可以用來分類，還按某種規律排序，不同的定序變量可以比較大小，有排序的能力，但是之間的差值沒有意義（例如消費能力，教育程度）。

　　　　 3. 定距變量: 可以比較大小，差值具有意義。（常見的連續變量，例如價格、購買數量）

　　　　不同類型的方法相關性檢測的方法是不同的：

　　　　利用MVtest檢驗兩個變量是否相關。

　　最后補充一點決策樹是一個非參數方法。這意味着它不對數據的空間分布和分類結構做任何假設。而一般的多元線性模型假設各個特征之間是

不相關的，如果兩個特征的相關性過高則會有復共線性的影響，會降低多元線性模型的預測精度。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。