大數據之統計學基礎


1. 統計學

統計學可以分為:描述統計學與推斷統計學

描述統計學:使用特定的數字或圖表來體現數據的集中程度和離散程度。例:每次考試算的平均分,最高分,各個分段的人數分布等,也是屬於描述統計學的范圍。

推斷統計學:根據樣本數據推斷總體數據特征。例:產品質量檢查,一般采用抽檢,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。

2.均值、中位數、總數、極差、方差、標准差

對於一組數組,如果只容許使用一個數字去代表這組數據,那么這個數字應該如何選擇??——選擇數據的中心,即反映數據集中趨勢的統計量。

均值——算術平均數,描述平均水平。

中位數——將數據按大小排列后位於正中間的數描述,描述中等水平。

眾數——數據中出現最多的數,描述一般水平。

極差——最大值-最小值,簡單地描述數據的范圍大小

方差——在統計學上,更常用的是使用方差來描述數據的離散程度——數據離中心越遠越離散。其中,X¡表示數據集中第i個數據的值,µ表示數據集的均值。

標准差——如果原數據的單位是m的話,那么方差的單位就是mˆ2,方差與原數據的單位是不一樣的,兩者沒有可比性。為了保持單位的一致性,我們引入一個新的統計量——標准差。

2.1 均值

2.2 中位數

顧名思義,中位數就是將數據按大小順序(從大到小或是從小到大都可以)排列后處於中間位置的數。若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算術平均數。

2.3 眾數

眾數——數據中出現次數最多的數(所占比例最大的數)。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用於數值型數據,對於非數值型數據也同樣適用。

2.4 均值、中位數、眾數的優劣勢

  優點 缺點
均值 充分利用所有數據,適用性強 容易受到極端值影響
中位數 不受極端值影響 缺乏敏感性
眾數 當數據具有明顯的集中趨勢時,代表性好;不受極端值影響 缺乏唯一性:可能有一個,可能有兩個,可能一個都沒有

 

2.5 方差

方差公式:,方差公式經過變形后可以簡化為

方差分總體方差與樣本方差。總體方差:,樣本方差:

 

 

 2.6 標准差

標准差:,有效地避免了因單位平方而引起的度量問題。與方差一樣,標准差的值越大,表示數據越分散。

3. 統計學直觀圖表

原數據太雜亂無章,難以看出規律性;只依賴數字來描述集中趨勢與離散程度,讓人難以對數據產生直觀的印象,這時就需要用到圖表。

3.1 直方圖

頻數分布表

頻數直方圖

頻率直方圖

3.2 箱線圖

上邊緣:除異常點以外的數據中的最大值

上四分位數:將所有數據按照從小到大的順序排序排在第75%位置的數字

下四分位數:將所有數據按照從小到大的順序排序排在第25%位置的數字

下邊緣:除異常點以外的數據中的最小值

3.3 莖葉圖

將數據分為莖和葉兩部分,這里的莖是指十位上的數字,葉是指個位上的數字。將莖部分(十位)從小到大,從上到下寫出來。相對於各自的莖,將同一莖(十位)的葉子(個位)從小到大,從左往右寫出來。

3.4 線圖

3.5 柱形圖

柱形圖:顯示一段時間內的數據變化或顯示各項之間的比較情況。

3.6 餅狀圖

餅狀圖,根據各項所占百分比決定在餅圖中的扇形面積。簡單易懂,通俗明了,可以更加形象地看出各個項目所占的比例大小。

4. 概率論

4.1 條件概率

已知某個事件A發生的條件下,另一個事件B發生的概率稱為條件概率,記為P(B|A)。看一下P(B|A)與P(A)、P(B)的關系:P(B|A) = P(AB) / P(A)。

條件概率也是概率的一種,所以也符合概率定義的三個條件:

  1. 非負性:P(B|A) ≥ 0;
  2. 規范性:對於必然事件S,有P(S|A) = 1;
  3. 可列可加性:對於兩兩互不相容的事件B1,B2,B3.....,即Bi · Bj = Ø,i ≠ j,i,j = 1,2,......,有P(B1 υ B2 υ ...... | A) = P(B1|A) + P(B2|A) + ......

乘法定理:由條件概率的定義,很容易得到P(AB) = P(B|A)P(A),其中P(A) > 0;這條公式很容易推廣到P(ABC) = P(C|AB)P(B|A)P(A) = P(A|BC)P(B|C)P(C).

 4.2 全概率公式

設試驗E的樣本空間為S,A為E的一個事件,B1、B2......Bn是S的一個划分,且P(Bi) > 0 (i=1,2......n),則

在某些時候,事件A的概率不好求,但是通過全概率公式卻可以很容易求得。

4.3 貝葉斯公式

設試驗E的樣本空間為S。A為E的一個事件,B1、B2......Bn是S的一個划分,且P(A) > 0, P(Bi) > 0 (i=1,2,.....,n),則

當對樣本空間的划分由一對對立事件B與¯B組成時,全概率公式和貝葉斯公式可以簡化為

貝葉斯公式的應用——訴訟、疾病診斷、垃圾郵件判別

下面來看一則案例:

 

4.4 公式比較

乘法公式、全概率公式與貝葉斯公式

  1. 乘法公式是求“幾個事件同時發生”的概率;
  2. 全概率公式是求“最后結果”的概率;
  3. 貝葉斯公式是已知“最后結果”,求“某個事件”的概率。

先驗概率與后驗概率

  1. P(Bj|A)是在事件A發生的條件下,某個事件Bj發生的概率,稱為“后驗概率”;
  2. Bayes公式又稱為“后驗概率公式” 或 “逆概公式”;
  3. 稱P(Bj)為“先驗概率”。

4.5 獨立性與事件

設A、B是兩個事件,如果滿足:P(AB) = P(A)P(B),則稱事件A、B相互獨立。簡稱A、B獨立。

由事件獨立的定義可以推出:

 

  1. A、B獨立,且P(A) > 0 ↔ P(B|A) = P(B)。

             P(B|A) = P(AB)/P(A) = P(A)P(B) /P(A) = P(B)

  1. 若A、B獨立,則A與¯B、¯A與¯B也相互獨立。

             P(A) = P(A|B)P(B) + P(A|¯B)P(¯B) = P(A)P(B) + P(A¯B)

             故P(A¯B) = P(A) - P(A)P(B) = P(A)(1-P(B))=P(A)P(¯B)

設A、B、C是三個事件,若滿足

   

則稱A、B、C相互獨立。

4.6 相互獨立事件與互斥事件、對立事件

相互獨立事件:兩個事件沒有一點關系。

互斥事件:要么只有其中一個事件發生,要么兩個事件都不發生。

對立事件:兩個之中,只有一個發生。跟互斥事件相比,對立事件必然會有一個事件發生。

互斥事件與對立事件都不是相互獨立事件!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM