分析思維 第四篇:數據分析入門階段——描述性統計分析和相關分析


數據分析的入門思維,首先要認識數據,然后對數據進行簡單的分析,比如描述性統計分析和相關性分析等。

一,認識變量和數據

變量和數據是數據分析中常用的概念,用變量來描述事物的特征,而數據是變量的具體值,把變量的值也叫做觀測值。

1,變量

變量是用來描述總體中成員的某一個特性,例如,性別、年齡、身高、收入等。

變量可以分為:

  • 定性變量:用於分類,一般是文本,例如,性別、顏色
  • 定序變量:用於表示等級或次序的變量,例如,學歷,職位,排名等,變量的值可以把事務排列為高低或大小,但是各個變量值之間沒有確切的間隔距離,無法確定兩個定序變量之間相差多少。
  • 定量變量:是數量變量,能夠比較大小。分為兩類:離散變量和連續變量。

2,數據

數據是變量的具體值,按照變量的類型,可以把數據分為:分類數據、順序數據和數值型數據。

按照數據分析的目的,可以把數據分為實驗組(Treatment)和參照組(Control)。

按照數據的類型,可以把數據分為:文本數據、數值型數據和日期時間數據。

3,缺失值

不是所有的數據都是完整的,有些觀測值可能會缺失,對於缺失值,通常的處理方式是:刪除缺失值所在的數據行,填充缺失值、插補缺失值。

4,觀測值的重編碼

數據分析中,通常需要把連續型變量轉換為定序變量,例如,把學生的成績划分為優秀、良好、合格和差4個等級,這種操作也稱作離散化。

當觀測數據所用的單位可能影響數據分析時,還需要對數據進行規范化,常用的規范化方法是:最小-最大規范化,標准化變換等。

觀測值的重編碼,后續會有詳細的介紹。

二,描述性統計分析

描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分布形態。

1,集中趨勢的描述性統計量

  • 均值:是指一組數據的算術平均數,描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。
  • 中位數:是指當一組數據按照順序排列后,位於中間位置的數,不受極端值的影響,對於定序型變量,中位數是最適合的表征集中趨勢的指標。
  • 眾數:是指一組數據中出現次數最多的觀測值,不受極端值的影響,常用於描述定性數據的集中趨勢。

2,離散程度的描述性統計量

  • 最大值和最小值:是一組數據中的最大觀測值和最小觀測值
  • 極差:又稱全距,是一組數據中的最大觀測值和最小觀測值之差,記作R,一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
  • 方差和標准差:是描述一組數據離散程度的最常用、最適用的指標,值越大,表明數據的離散程度越大。

3,分布形態的描述性統計量

偏度:用來評估一組數據的分布呈先的對稱程度,當偏度=0時,分布是對稱的;當偏度>0時,分布呈正偏態;當偏度<0時,分布呈負偏態。

峰度:用來評估一組數據的分布形狀的高低程度的指標,當峰度=0時,分布和正態分布基本一直;當峰度>0時,分布形態高狹;當峰度<0時,分布形態低闊。

4,頻率分析

頻數分布分析(又稱頻率分析)主要通過頻數分布表、條形圖和直方圖、百分位值等來描述數據的分布特征。

在做頻數分布分析時,通常按照定性數據(即分類的類別),統計各個分類的頻數,計算各個分類所占的百分比,進而得到頻率分布表,最后根據頻率分布表來繪制頻率分布圖。

 

5,按照時間遞增的趨勢分析

特殊情況下,當X軸是日期數據,Y軸是統計量(比如均值、總數量)時,可以繪制出統計量按照時間遞增的趨勢圖,從圖中可以看到統計量按照時間增加的趨勢(無變化、遞增或遞減)和周期性。

例如,下圖的X軸是日期,Y軸的統計量是總數量,兩條折線分別是湖北確診病例人數和湖北新增確診病例人數:

三,相關性分析 

相關性分析是研究事務之間是否存在某種依存關系,並對具有依存關系的現象進行相關方向和相關程度的分析。

相關程度用相關系數r表示,|r|<=1,r=0表示不相關,通常情況下,0 < | r | <1表示變量之間存在不同程度的線性相關,根據約定的規則:

  • | r | <=0.3 :為弱線性相關或不存在線性相關;
  • 0.3 < | r | <=0.5 :低度線性相關,認為存在線性相關,但是相關性不明顯
  • 0.5 < | r | <=0.8 :顯著線性相關,認為存在強線性相關,存在明顯的相關性
  • | r | >0.8 :高度相關,認為存在極強的線性相關

 

 

參考文檔:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM