基於R語言的數據分析和挖掘方法總結——描述性統計


1.1 方法簡介

描述性統計包含多種基本描述統計量,讓用戶對於數據結構可以有一個初步的認識。
在此所提供之統計量包含:

  • 基本信息:樣本數、總和
  • 集中趨勢:均值、中位數、眾數
  • 離散趨勢:方差(標准差)、變異系數、全距(最小值、最大值)、內四分位距(25%分位數、75%分位數)
  • 分布描述:峰度系數、偏度系數

用戶可選擇多個變量同時進行計算,亦可選擇分組變量進行多組別的統計量計算。

1.2 詳細介紹

1.2.1 樣本數和總和

1. R語言涉及的方法:length(x)

1.2.2 均值(Mean)

1. 公式

1_

2. R語言實現方法:mean(x)

例如:

> mean(Nile) [1] 919.35 

1.2.3 中位數(Median)

1. 定義:

中位數描述數據中心位置的數字特征。大體上比中位數大或小的數據個數為整個數據的一半。對於對稱分布的數據,均值與中位數比較接近;對於偏態分布的數據,均值與中位數不同。中位數的又一顯著特點是不受異常值得影響,具有穩健性,因此它是數據分析中相當重要的統計量。

2. R語言實現方法:median(x)

例如:

> median(Nile) [1] 893.5 

1.2.4 眾數(Mode)

1. 定義

眾數(Mode),在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平(眾數可以不存在或多於一個)。

2. R語言實現方法:names(which.max(table(x)))

1.2.5 方差(Variance)、標准差(Standard Deviation)

1. 定義

樣本中各數據與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本標准差。樣本方差和樣本標准差都是衡量一個樣本波動大小的量,樣本方差或樣本標准差越大,樣本數據的波動就越大。

2. 公式

2_

3. R語言實現方法:

  • 方差:var(x)
  • 標准差:sd(x)

1.2.6 變異系數(Coefficient of Variation)

1. 定義

在概率論和統計學中,變異系數,又稱“離散系數”,是概率分布離散程度的一個歸一化量度。

2. 公式

3_
σ:標准差,μ:平均值

3. R語言實現方法:sd(x)/mean(x)

例如:

> sd(Nile)/mean(Nile)
[1] 0.184073 

1.2.6 全距(Range)(最小值、最大值)

1. 定義

全距(Range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距;即最大值減最小值后所得之數據。
全距可以用ω(讀做omega)來表示。

2. 公式

4_
ω:全距,X_H:最大值,X_L:最小值

3. R語言實現方法:

  • 最大值:max(x)
  • 最小值:min(x)
  • 全距:range(x)

1.2.7 四分位距(Quartile)(25%分位數、75%分位數)

1. 定義

內四分位距(interquartile range, IQR),是描述統計學中的一種方法,以確定第三四分位數和第一四分位數的分別(即Q_1, Q_3的差距)。與方差、標准差一樣,表示統計資料中各變量分散情形,但四分差更多為一種穩健統計(robust statistic)。

2. 公式

四分位距:IQR=Q3-Q1
四分位差:QD=(Q3-Q1)/2

3. R語言實現方法:

  • quantile(x)
  • fivenum(x)
  • 四分位距: S<-fivenum(x) S[3]-S[1]

例如

> quantile(Nile) 0% 25% 50% 75% 100% 456.0 798.5 893.5 1032.5 1370.0 > fivenum(Nile) [1] 456.0 798.0 893.5 1035.0 1370.0 

1.2.8 峰度(Kurtosis)

1. 定義

在統計學中,峰度(Kurtosis)又稱峰態系數,用來衡量實數隨機變量概率分布的峰態。峰度高就意味着方差增大是由低頻度的大於或小於平均值的極端差值引起的。峰度刻划不同類型的分布的集中和分散程序。設分布函數F(x)有中心矩μ_2, μ_4,則C_k=μ_4/(μ_2^2 )-3為峰度系數。

2. 公式

5_1

3. 距

1) 原點距(moment about origin)

對於正整數k,如果E(X^k)存在,稱μ^k=E(X^k)為隨機變量X的k階原點矩。X的數學期望(均值)是X的一階原點矩,即E(X)=μ^1。

5_2

2) 中心距(moment about centre)

對於正整數k,如果E(X)存在,且E([X – EX]k)也存在,則稱E([X-EX]k)為隨機變量X的k階中心矩。如X的方差是X的二階中心矩,即D(X)= E([X-EX]2)

5_3

4. R語言實現方法:kurtosis(x)

例如:

> library(PerformanceAnalytics) > kurtosis(Nile) [1] -0.3049068 

1.2.9 偏度(Skewness)

1. 定義

在機率論和統計學中,偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。在數量上,偏度為負(負偏態)就意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。偏度為正(正偏態)就意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(包括中位數在內)位於平均值的左側。偏度為零就表示數值相對均勻地分布在平均值的兩側,但不一定意味着其為對稱分布。

2. 公式

6_
當Cs>0時,概率分布偏向均值右則,Cs<0時,概率分布偏向均值左則。

3. R語言實現方法:skewness(x)

例如:

> library(PerformanceAnalytics) > skewness(Nile) [1] 0.3223697 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM