探索性數據分析 EDA 摘自數據科學實戰


探索性數據分析


“面對那些我們堅信存在或不存在的事物時,“探索性數據分析”代表了一種態
度,一種方法手段的靈活性,更代表了人們尋求真相的強烈願望。”
—— John Tukey

探索性數據分析經常表現為畫一些直方圖或者莖葉圖,小學五年級都開始教這些知識了,
因此探索性數據分析看起來只是小菜一碟,不是嗎?這也就難怪沒人把它當回事了。
然而探索性數據分析是數據科學中的重要一環,同時代表了來自貝爾實驗室的一批統計學
家在從事數據科學工作時所采用的方法和觀點。
John Tukey 是貝爾實驗室的數學家,他開發出有別於驗證性數據分析的探索性數據分析,
如上節所述,驗證性數據分析偏重於模型和假設。在探索性數據分析中,沒有假設,也沒
有模型。這里的“探索性”是指你對待解問題的理解會隨着研究的深入不斷變化的。

探索性數據分析的基本工具是圖、表和匯總統計量。一般來說,探索性數據分析是一種系
統性分析數據的方法,它展示了所有變量的分布情況(利用盒形圖)、時間序列數據和變
換變量,利用散點矩陣圖展示了變量兩兩之間的關系,並且得到了所有的匯總統計量。換
句話說,就是要計算均值、最小值、最大值、上下四分位數和確定異常值。

探索性數據分析不僅是一組工具,更是一種思維方式:要怎么看待和數據之間的關系。你
想理解數據,了解數據的形狀,獲得對數據的直觀感受,想將數據和你對產生數據的過程
的理解關聯起來。探索性數據分析是你和數據之間的橋梁,它不向任何人證明什么。

 

探索性數據分析的哲學


“與其擔心如何說服別人,不如先了解到底發生了什么。”
—— Andrew Gelman


在谷歌期間,Rachel 有幸與前貝爾實驗室的兩位統計學家,Daryl Pregibon 和Diane
Lambert 共事,他們都是應用統計學領域的專家。正是從他們身上,Rachel 學會了將探索
性數據分析作為她的最佳實踐之一。
是的,即使面對谷歌級別的大體量的數據,他們依然進行探索性數據分析。在互聯網企業
中,基於和處理小數據同樣的原因,探索性數據分析經常被用到,在處理日志數據時,有
更多的理由使用探索性數據分析。

使用探索性數據分析有很多重要的原因。包括獲取對數據的直覺、比較變量的分布、對數
據進行檢查(確保數據的規模在你預期范圍內,數據的格式是你想要的等)、發現數據中
的缺失值和異常值、對數據進行總結
對於在日志中生成的數據,探索性數據分析可以用於調試記錄日志的流程。比如,你通過
統計日志數據發現的一些“模式”,很可能其實是由於日志記錄流程中出錯造成的,因此
這些錯誤亟待修復。如果你怕麻煩從不去調試,你可能會一直認為這些模式是真實存在
的。最后,探索性數據分析確保了產品的性能符合預期。


在探索性數據分析中會引入許多圖形,但是我們有必要在這里對探索性分析和數據可視化
加以區分。探索性數據分析是數據分析的開端,而數據可視化(將會在第9 章介紹)是在
數據分析的最后一個環節,用於呈現數據分析的結論。在探索性數據分析中,圖形只是幫
助你理解數據。
在探索性數據分析中,可以根據對數據的理解優化算法。比如,你正在開發一種排名算
法,該算法對你推薦給用戶的內容進行排名。為此,你可能需要定義什么是“流行度”。
在決定以何種方式量化“流行度”之前(可行的量化方式有最高的點擊率、最多的回復
率、大於某一閾值的回復量或者眾多指標的加權平均值),你需要先了解數據的運作表現,
而做這件事最好方式就是觀察你的數據,親自去實踐。
根據數據繪圖,並進行比較,這些將會收到意想不到的效果。相比於拿到數據集后、不管
三七二十一就運行一個回歸模型,這種方法效果要好得多。你之所以選擇回歸模型,只是
因為你知道它怎么用。對分析師和數據科學家來說,在處理數據時,若沒有將探索性數據
分析視為重要一環納入到整個研究過程中,這對研究結果極為不利。給自己個機會,把探
索性數據分析作為你的數據分析工作流程中的一部分吧!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM