數據分析思維培養之一:數據思維


本文章為SPSSAU數據分析思維培養的第一篇文章。

 

想要進行科學的數據分析,正確的數據格式,以及正常的數據是最基本的。而且數據的准備和數據的理解,正是科學的數據分析思維必備條件之一。

 

想要准備好自己的數據,需要從以下六個方面進行處理:

  • 1點,是需要准備好正確的數據格式
  • 2點,在於對數據的基本處理,包括數據標簽、數據編碼和生成變量等
  • 3點,是一些分析方法需要的數據特殊格式准備
  • 4點,是數據異常值,或者無效樣本數據的處理
  • 5點,是數據基本特征探索
  • 6點,是一些其它注意事項等

 

 

1點,數據格式

在進行數據分析前,數據的准備是第一點,不論是使用數據庫下載的數據,或者實驗數據,也或者問卷調查數據,手工錄入數據等。不論是直接從系統下載的原始數據,還是自己手工錄入的數據,均需要按照數據分析思維的規范格式進行,否則任何軟件都無法分析。

 

但通常情況下,很多人都會忽略此步驟,認識有了數據馬上就可以分析,其實不然,准備數據和數據的基本處理也屬於數據分析的范疇,而且正常情況下數據處理花的時間占比會超過50%,也即是說想完成一項分析,其實有超過50%的時間(多數情況下會是70%左右)都是在准備數據上。

 

接下來以例子說明下什么是正確的數據格式,首先看下常見的錯誤數據格式例子如下圖:

 

 

 

上圖為是最為常見的一種錯誤數據格式,手工錄入到EXCEL里面的時候,非常的隨意,想如何就如何。但一旦想進行分析的時候就會出錯,那是由於EXCEL是表格軟件,而不是數據分析軟件,所以隨意的格式都可以。

 

上圖中出現了5個常見的問題,分別是:

1:出現合並單元格,A1和A2這兩個單元格合並,在分析的時候軟件就不知道名字應該叫什么,所以直接無法上傳到軟件中;

2:C1這個單元格本身是標識體重信息,但直接為空,分析軟件可不知道空就是‘體重’的意思,這是非常明顯的錯誤;

3:A列里面為性別,但是數據非常不規范,男,男性,MALE這三個詞語都是男,但是分析軟件會認為這是3個不同的名詞,這也可以很好的解釋為什么‘填空題’這種雜亂無章的數據通常是無法分析的原因;

4:B8這個格子里面為‘平均為175’,這是錯誤的。原因在於B列是標識身高信息,而不是平均身高信息,如果需要得到平均身高,讓分析軟件幫你計算就好;

5:C7這個格式為‘無數據’,其實就是缺失數據,直接空着就好,否則分析軟件會認為‘無數據’是一個數據信息。

 

上述已經列出常見的錯誤特征,接下來說明正確的數據格式如下:

 

 

 

規范的數據格式(可用於數據分析)應該是這樣,第1行為‘標題’即具體名字,第2行起為具體的數據,且不能有合並單元格的情況,如果為空值即缺失值,直接不錄入就好。並且數據信息需要規范,比如男,男性,MALE這三個詞語都應該規范成‘男’。

 

任何的分析軟件都應該提供規范的數據格式才能分析,以SPSSAU為例,其支持的數據格式說明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三種類型),SAV(SPSS格式等),使用SPSSAU右上角‘我的數據’上傳數據后即成功導入了數據。

 

需要特別說明的一點是:數據分析軟件事實上只認識數字,比如上例中的‘男’,‘女’,軟件是不認識的,那么軟件如何處理呢。它會自動把‘男’或‘女’用數字1或2進行表示,然后打上數字的標簽,分析出來后數字1的時候就會顯示成‘男’,數字2就會顯示成‘女’。任何的機器原理上都只認識數字而不認識文字,全部都是將文字‘數字化’處理。因此接下來會進行一些數字標簽,以及數據基本處理的說明。

 

除此之外還需要說明一點是:如果有多份數據,這是需要自己合並整理在一個EXCEL工作表里面才可以,分析軟件是無法知道多份數據分別代表什么意思,需要自己手工將數據合並整理在一個工作表里面后才能進一步分析。

 

2點數據標簽及編碼處理等

上一點已經說明正確的數據之后,接下來說明下數據的基本處理,包括數據標簽、數據編碼和生成變量。關於數據處理相關的操作,SPSSAU截圖如下:

 

 

 

完成正確的數據上傳后,那么數字代表的意義是什么呢?比如數字1表示男,數字2表示女,這需要告訴軟件才可以,這即是數據標簽的功能,SPSSAU操作如下:

 

 

除了數據標簽外,有時候還可能需要進行數據編碼處理,比如希望對年齡分成3個組別,分別是20以下,20~30,30以上。此時就需要使用數據編碼處理,如下圖:

 

 

上圖中顯示,將0~20歲編碼成數字1;20~30編碼成數字2;30到100編碼成數字3;當然至於數字1,2,3分別代表的意義,只有分析人員自己才知道,所以一般還需要使用數據標簽功能去標識出數字1,2,3代表的意義。

 

 

 

很多時候還需要對數據生成變量處理,比如說對體重或者身高求對數處理,或者對數據開根號,取絕對值,求和,求平均值處理等,那么可使用SPSSAU生成變量功能,SPSSAU提供大約30類數據處理的功能基本上可以滿足所有人的需求。當然有時候還需要更多的處理,可使用‘高級公式’自己輸入公式處理即可。

 

在完成數據編碼,生成變量之后,有可能會想對‘標題名稱’修改或者刪除掉多余項,此時可使用SPSSAU‘標題處理’功能即可。

 

3點,分析方法數據格式

在完成正確的數據上傳及數據處理后,通常就可以開始進行正常的分析了,絕大多數的分析都可以完成。但有的時候,個別研究方法對於數據格式是有特殊要求的,所以還需要按照其特征的數據格式要求進行准備數據,比如卡方檢驗時有時提供的是‘加權’數據格式,kappa一致性檢驗,模糊綜合評價分析方法等特別分析方法時,對於數據的格式有特殊的要求,建議可直接查看SPSSAU幫助手冊里面的案例數據格式,當然也可以直接使用SPSSAU的案例數據里面的格式模仿參考進行即可。

 

具體可在此頁面查看SPSSAU的案例數據格式:

https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

 

4點數據異常或無效處理

對於上傳后的數據,有時候會出現異常情況,比如正常男性成年人的身高是介於1.5~2米之間,但是如果出現一個數據為1.2米,那這種異常數據在分析之前是需要進行處理才可以,一般情況下是把該值直接設置成null值。SPSSAU操作如下:

 

 

 

也有的時候會對數據標識為無效樣本,比如一份關於淘寶購物滿意度的問卷,填寫者全部都填寫完全相同的答案,說明該樣本沒有認真填寫,此時可將該樣本設置為無效樣本,SPSSAU操作如下圖(將相同數字大於70%設置成無效樣本):

 

 

5點數據基本特征探索

通常在分析前,還需要首先探索下數據的特征,看下數據是否有異常情況,大概看下數據的特征情況等,便於做到心中有數,比如正常男性成年人身高是介於1.5~2米之間,但數據中有沒有異常值呢,通常可使用描述分析大概看下就好。如下圖中最小值是1.69米,最大是1.82米,都是正常數據。

 

 

 

當然還可以查看一些更深入的數據指標,比如百分位數等,如下圖:

 

 

 

另外也可以使用箱線圖、或者散點圖等看下是否有異常數據,SPSSAU可視化里面均有提供。

 

6點其它

數據的准備和清理是進行數據分析的第一步,而且正常情況下,此步驟占用了數據分析超過50%(大部分情況下是70%)的時間,但此步驟非常容易被普通用戶忽略。

 

完成數據准備和基本的清理,數據異常,數據無效,以及數據特征探索之后,才能開始進入下一步,即正常的數據分析。否則后面分析發現有着異常數據或者無效數據,也或者錯誤的數據,那么中間所有的分析都會白費。

 

預告一下接下來的幾期內容:

 

 

感興趣的同學千萬別錯過!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM