分析思維 第一篇:認識數據


數據分析,先有數據,而后有分析,認識數據是分析數據的前提。在現實世界中,數據一般都是有缺失的、異構的、有量綱的。認識數據,不僅要了解數據的屬性(維)、類型和量綱,還要了解數據的分布特性。洞察數據的特征,檢驗數據的質量,有助於后續的分析工作,否則,沒有可信的數據,數據分析的結果將是空中樓閣。

一,檢驗數據質量

你不能想當然地認為數據是有效的,有些數據是從多個不同的數據源中獲取的,這些異構數據,在各自的系統中都是正確無誤的,只不過很有“個性”,例如,有的系統中使用0和1,代表性別;而有些系統使用f和m代表性別,因此,在使用數據之前,首先要對數據做集成處理,使用一致的單位、使用統一的文本來描述對象等。有些數據中包含大量重復的數據、包含缺失的數據、或者包含離群的數據,在開始分析數據之前,必須好好檢查數據是否有效,並對數據做預處理操作。判斷離群數值,並對其分析,有時會導致重大發現的產生。

二,識別定性和定量屬性

觀測(observation)是一個數據對象,對應於數據表的一行,表示一個屬性組的觀測值。屬性(attribute)是一個數據字段,表示數據對象的一個特征。在數據分析中,屬性、維(Dimension)、特征(feature)和變量(Variable)可以互換使用,按照屬性值功能的不同,可以把屬性分位定性屬性和定量屬性。

(1)定性屬性是指用文本描述對象的特征,定性屬性主要分為三類:

  • 標稱屬性:也叫做類別屬性,用於對數據對象分類(Category),比如,頭發的顏色、職業
  • 二元屬性:只有兩個類別的屬性,如果二元屬性的兩種狀態具有同等價值或具有相同的權重,那么認為該二元屬性是對稱的,例如,性別;非對稱是指兩種狀態的結果不是同樣重要的,例如,是否吸煙對治療的效果而言,其權重是不同的。
  • 序數屬性:屬性的順序是有意義的,通常用於等級評定。通常情況下,序數屬性是定性的文本,比如,官職、消費者滿意度,但是,序數屬性也可以通過把數值屬性分割成不同的區間來得到,比如,年齡段。

在序數屬性中,有一類重要的屬性,叫做時間屬性,一些常見的分析方法,比如時序分析,周期性分析等都是基於時間屬性的。

(2)定量屬性是指用數值描述對象,可以比較大小,是可以量化的屬性,定量屬性主要分為兩個標度:

  • 區間標度:可度量的數值,用整數或實數表示,比如,年紀、薪水
  • 比率標度:比例數值,比如,速度、留存率

定量屬性通常含有量綱,例如,身高的量綱是cm,而薪水的量綱是元,同一量綱的數據可以比較大小,不同量綱的數據,需要通過歸一化去量綱之后,比較大小才有意義。定性數據通常是分析數據的一個角度,增加維度,從不同的角度來看待問題,能夠細分指標,增加分析的深度。

三,查看數據的基本統計描述

統計是數據分析的好助手,查看數據集的基本統計描述,能夠幫助我們了解數據的全貌,識別數據的分布特征。由於定量數據天生具有計算的特性,數據的分布通常是針對定量數據進行的統計描述。基本統計描述主要是指從數據的集中趨勢、離散趨勢和分布來認識數據。每個統計描述,都使用特定的統計量來衡量。

1,集中趨勢

數據的集中趨勢,用於度量數據分布的中心位置,直觀地說,測量一個屬性值的大部分落在何處。描述數據集中趨勢的統計量是:均值、中位數、眾數。

  • 均值(mean)是數據的算術平均值,是描述數據集的中心位置時最常用的統計量,但是,均值對離群值很敏感。
  • 中位數(median)是有序數據值的中間值,它把數據分為兩半,一端是較高的一半,另一端是較低的一半。當數據中出現極端值時,中位數是比均值更好地度量數據中心的統計量。
  • 眾數(mode)是數據中出現次數最多的值,一般用於定性數據。

了解數據的集中趨勢,能夠避免做出錯誤的統計分析,說一個真實的謊言,每當國家統計局公布人均工資水平時,總會在社會上引起不小的反響,很多人都感概被富裕了,這是因為貧富差距太大,導致平均工資不能刻畫人均收入的平均水平。這種情況下,可以使用中位數來表示人均工資,或者使用其他的指標,比如基尼系數。

2,離散趨勢

數據的離散趨勢,用於描述數據的分散程度,描述離散趨勢的統計量是:值域、四分位數極差(IQR)、標准差、變異系數

  • 值域(Range)是數據中的最大值和最小值的差,反映數據的波動范圍
  • 內距(IQR,Inter-Quartile Range),又稱作四分位數極差,是上四分位數和下四分位數的差值,給出數據的中間一半所覆蓋的范圍
  • 標准差:計算所有數值相對均值的偏離量,反映數據在均值附近的波動程度

通過測定數據的離散程度,可以反映觀測值之間的差異大小,從而評估分布中心的指標對各個觀測變量值代表性的高低。平均工資之所以不能刻畫人均收入的平均水平,一個很大的原因是工資的離散程度太大。

3,數據的分布

數據的分布,統計量只能衡量總體數據的集中和離散程度,而分位數卻能直觀地描述數據的分布。使用分位數來表示數據的分布,通常使用五箱圖(box plot)來可視化,它不僅能夠呈現數據的分布,而且可以呈現離群點的分布,如下圖。

箱圖識別可以的離群點的規則是:挑選落在Q3之上或Q1之下至少1.5*IQR處的值。

分位數是觀察數據分布的最簡單有效的方法,但分位數只能用於觀察單一屬性的數據分布。散點圖可以用來觀察雙變量的數據分布,聚類可以用來觀察更多變量的數據分布。

通過觀察數據的分布,采用合理的指標,使數據的分析更全面,避免得出像平均工資這類偏離事實的的分析結果。

四,歸一化

屬性的值,有時是有單位的,稱作量綱數據。不同評價指標往往具有不同的量綱,數據之間的差別可能很大,不進行處理會影響到數據分析的結果。為了消除指標之間的量綱和取值范圍差異對數據分析結果的影響,需要對數據進行標准化處理,就是說,把數據按照比例進行縮放,使之落入一個特定的區域,便於進行綜合分析。

(1)所謂量綱,簡單來說,就是說數據的單位;有些數據是有量綱的,比如身高,而有些數據是沒有量綱的,例如,男女比例。無量綱化,是指去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或者量級的指標能夠進行和加權。

(2)數據的標准化是指將數據按照比例縮放,使之落入一個特定的區間。

(3)歸一化是數據標准化中最簡單的方式,目的是把數變為(0,1)之間的小數,把有量綱的數據轉換為無量綱的純數量。

歸一化能夠避免值域和量綱對數據的影響,便於對數據進行綜合分析,舉個簡單的例子,在一次考試中,小明的語文成績是100分、英語成績是100分,單單從這考試成績來評價,小明的語文和英語學的一樣好。但是,如果你知道語文總分是150分,而英語總分只有120分,你還認為小明的語文和英語成績是一樣的嗎?

對小明的成績做簡單的歸一化:采用離差歸一化方法,公式是:y = (x-min) / range,這里設min=0,那么 range = max - min = max,由此推算出小明的語文成績是4/6,英語成績是5/6,因此,判定小明的英語成績好於語文成績。

還原到真實的場景中,各科的考題難度不盡相同,設班級中語文的最低分數是min語文 = 60,英語的最低分數是min英語 = 85,推算出小明的語文成績是0.44 =(100-60)/(150-60),英語成績是0.43 = (100-85)/(120-85),據此,可以判斷小明的英語成績稍差於語文成績。

歸一化的使得具有不同值域、不同量綱的數據之間具有可比性,使數據分析的結果更加全面,更接近事實。

 

 

參考文檔:

數據挖掘的概念與技術


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2024 CODEPRJ.COM