數據分析的入門思維,首先要認識數據,然后對數據進行簡單的分析,比如描述性統計分析和相關性分析等。
一,認識變量和數據
變量和數據是數據分析中常用的概念,用變量來描述事物的特征,而數據是變量的具體值,把變量的值也叫做觀測值。
1,變量
變量是用來描述總體中成員的某一個特性,例如,性別、年齡、身高、收入等。
變量可以分為:
- 定性變量:用於分類,一般是文本,例如,性別、顏色
- 定序變量:用於表示等級或次序的變量,例如,學歷,職位,排名等,變量的值可以把事務排列為高低或大小,但是各個變量值之間沒有確切的間隔距離,無法確定兩個定序變量之間相差多少。
- 定量變量:是數量變量,能夠比較大小。分為兩類:離散變量和連續變量。
2,數據
數據是變量的具體值,按照變量的類型,可以把數據分為:分類數據、順序數據和數值型數據。
按照數據分析的目的,可以把數據分為實驗組(Treatment)和參照組(Control)。
按照數據的類型,可以把數據分為:文本數據、數值型數據和日期時間數據。
3,缺失值
不是所有的數據都是完整的,有些觀測值可能會缺失,對於缺失值,通常的處理方式是:刪除缺失值所在的數據行,填充缺失值、插補缺失值。
4,觀測值的重編碼
數據分析中,通常需要把連續型變量轉換為定序變量,例如,把學生的成績划分為優秀、良好、合格和差4個等級,這種操作也稱作離散化。
當觀測數據所用的單位可能影響數據分析時,還需要對數據進行規范化,常用的規范化方法是:最小-最大規范化,標准化變換等。
觀測值的重編碼,后續會有詳細的介紹。
二,描述性統計分析
描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分布形態。
1,集中趨勢的描述性統計量
- 均值:是指一組數據的算術平均數,描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。
- 中位數:是指當一組數據按照順序排列后,位於中間位置的數,不受極端值的影響,對於定序型變量,中位數是最適合的表征集中趨勢的指標。
- 眾數:是指一組數據中出現次數最多的觀測值,不受極端值的影響,常用於描述定性數據的集中趨勢。
2,離散程度的描述性統計量
- 最大值和最小值:是一組數據中的最大觀測值和最小觀測值
- 極差:又稱全距,是一組數據中的最大觀測值和最小觀測值之差,記作R,一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
- 方差和標准差:是描述一組數據離散程度的最常用、最適用的指標,值越大,表明數據的離散程度越大。
3,分布形態的描述性統計量
偏度:用來評估一組數據的分布呈先的對稱程度,當偏度=0時,分布是對稱的;當偏度>0時,分布呈正偏態;當偏度<0時,分布呈負偏態。
峰度:用來評估一組數據的分布形狀的高低程度的指標,當峰度=0時,分布和正態分布基本一直;當峰度>0時,分布形態高狹;當峰度<0時,分布形態低闊。
4,頻率分析
頻數分布分析(又稱頻率分析)主要通過頻數分布表、條形圖和直方圖、百分位值等來描述數據的分布特征。
在做頻數分布分析時,通常按照定性數據(即分類的類別),統計各個分類的頻數,計算各個分類所占的百分比,進而得到頻率分布表,最后根據頻率分布表來繪制頻率分布圖。
5,按照時間遞增的趨勢分析
特殊情況下,當X軸是日期數據,Y軸是統計量(比如均值、總數量)時,可以繪制出統計量按照時間遞增的趨勢圖,從圖中可以看到統計量按照時間增加的趨勢(無變化、遞增或遞減)和周期性。
例如,下圖的X軸是日期,Y軸的統計量是總數量,兩條折線分別是湖北確診病例人數和湖北新增確診病例人數:
三,相關性分析
相關性分析是研究事務之間是否存在某種依存關系,並對具有依存關系的現象進行相關方向和相關程度的分析。
相關程度用相關系數r表示,|r|<=1,r=0表示不相關,通常情況下,0 < | r | <1表示變量之間存在不同程度的線性相關,根據約定的規則:
- | r | <=0.3 :為弱線性相關或不存在線性相關;
- 0.3 < | r | <=0.5 :低度線性相關,認為存在線性相關,但是相關性不明顯
- 0.5 < | r | <=0.8 :顯著線性相關,認為存在強線性相關,存在明顯的相關性
- | r | >0.8 :高度相關,認為存在極強的線性相關
參考文檔: