簡介
探索性數據分析所謂探索性數據分析( Exploratory Data Analysis )以下簡稱EDA,是指對已有的數據( 特別是調查或觀察得來的原始數據 )在盡量少的先驗假定下進行探索通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。
目錄
1. 探索性數據分析的簡要介紹
2. 探索性數據分析的必要性和意義
3. 探索分析的內容和考察方法
1. 探索性數據分析的簡要介紹
探索性數據分析的簡要介紹探索性數據分析的簡要介紹探索性數據分析的簡要介紹探索性數據分析(Exploratory Data Analysis, EDA)首先由 J.W.Tukey提出的。Tukey從生物學家那里學了許多分析數據的方法,並引入統計學中。1977年,Tukey出版了他的名著《探索性數據分析》(UNDERSTANDING ROBUST AND EXPLORATORY DATA ANALYSIS),引起了統計學界的關注,成為探索分析的第一個正式出版物。80年代后期,我國一些統計學者將這本著作介紹給我國統計學界,對我國統計學理論研究和統計事業的實踐起到了積極作用。此后,國內也有不少關於探索性數據分析方法的文章發表到各種統計刊物。
隨着計算機技術的飛躍發展,以及數據的復雜性越來越強,實施探索性數據分析成為數據分析中不可替代的一部分,從而在統計分析的過程中發揮着越來重要的作用。
2. 探索性數據分析的必要性和意義
統計學原理告訴我們,搜集到的數據在建立數據文件以后,並非立即投入統計分析,因為數據結構、數據中隱含的內在統計規律等尚不清楚,需要對數據進行考察和探索。
因此,應用數據分析的整個操作步驟大體可以划分為兩大階段:探索階段和證實階段。探索性數據分析分分離出數據的模式和特點,把他們有力地顯示給分析者。常常,分析者現對數據做探索性數據分析,而后才能有把握地選擇結構分量或隨機分量的模型;探索性數據分析還可以用來揭示:數據對於常見模型的意想不到的偏離。探索性方法的要點是靈活性:它既要靈活適應數據的結構,也要對后續分析步驟揭露的模式靈活反應。 證實性數據分析評估觀察到的模式或效應的再現性。傳統的統計推斷提供顯著性或置信性陳述,證實性分析它。可是,證實階段通常還包括:(1)將其他密切有關數據的信息結合進來;(2)通過收集和分析新數據確認結果。
總之,探索性數據分析強調靈活探求線索和證據;而證實性數據分析則着重評估現有證據。探索性數據分析與證實性數據分析在具體運用上可交叉進行, 探索性數據分析不僅可用在正式建立統計分析模型之前, 而且還可用在正式建立統計分析模型之后, 對所擬合的統計模型進行進一步的檢查、驗證, 提高統計分析的質量。
3. 探索分析的內容和考察方法
- 3.1 探索分析的內容
檢查數據是否有錯誤:過大過小的數據均有可能是奇異值、影響點或錯誤數據。要找出這樣的數據,並分析原因,然后決定是否從分析中刪除這些數據。因為奇異值和影響點往往對分析的影響較大,不能真實反映數據的總體特征。
獲得數據分布特征:很多分析方法對數據分布有一定的要求,例如很多檢驗就需要數據分布服從正態分布。因此檢驗數據是否正態分布,就決定了它們是否能用只對正態分布數據適用的分析方法。
對數據規律的初步觀察:通過初步觀察獲得數據的一些內部規律,例如兩個變量間是否線性相關。
- 3.2 探索分析的考察方法
探索分析一般通過數據文件在分組與不分組的情況下,獲得常用統計量和圖形。一般以圖形方式輸出,直觀幫助用戶確定奇異值、影響點、進行假設檢驗,以及確定用戶要使用的某種統計方式是否適合。
詳細內容參見銀河統計之探索性數據分析 - 用R構建Shiny應用程序