1. 統計學
統計學可以分為:描述統計學與推斷統計學
描述統計學:使用特定的數字或圖表來體現數據的集中程度和離散程度。例:每次考試算的平均分,最高分,各個分段的人數分布等,也是屬於描述統計學的范圍。
推斷統計學:根據樣本數據推斷總體數據特征。例:產品質量檢查,一般采用抽檢,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。
2.均值、中位數、總數、極差、方差、標准差
對於一組數組,如果只容許使用一個數字去代表這組數據,那么這個數字應該如何選擇??——選擇數據的中心,即反映數據集中趨勢的統計量。
均值——算術平均數,描述平均水平。
中位數——將數據按大小排列后位於正中間的數描述,描述中等水平。
眾數——數據中出現最多的數,描述一般水平。
極差——最大值-最小值,簡單地描述數據的范圍大小
方差——在統計學上,更常用的是使用方差來描述數據的離散程度——數據離中心越遠越離散。其中,X¡表示數據集中第i個數據的值,µ表示數據集的均值。
標准差——如果原數據的單位是m的話,那么方差的單位就是mˆ2,方差與原數據的單位是不一樣的,兩者沒有可比性。為了保持單位的一致性,我們引入一個新的統計量——標准差。
2.1 均值
2.2 中位數
顧名思義,中位數就是將數據按大小順序(從大到小或是從小到大都可以)排列后處於中間位置的數。若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算術平均數。
2.3 眾數
眾數——數據中出現次數最多的數(所占比例最大的數)。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用於數值型數據,對於非數值型數據也同樣適用。
2.4 均值、中位數、眾數的優劣勢
優點 | 缺點 | |
均值 | 充分利用所有數據,適用性強 | 容易受到極端值影響 |
中位數 | 不受極端值影響 | 缺乏敏感性 |
眾數 | 當數據具有明顯的集中趨勢時,代表性好;不受極端值影響 | 缺乏唯一性:可能有一個,可能有兩個,可能一個都沒有 |
2.5 方差
方差公式:,方差公式經過變形后可以簡化為
。
方差分總體方差與樣本方差。總體方差:,樣本方差:
2.6 標准差
標准差:,有效地避免了因單位平方而引起的度量問題。與方差一樣,標准差的值越大,表示數據越分散。
3. 統計學直觀圖表
原數據太雜亂無章,難以看出規律性;只依賴數字來描述集中趨勢與離散程度,讓人難以對數據產生直觀的印象,這時就需要用到圖表。
3.1 直方圖
頻數分布表
頻數直方圖
頻率直方圖
3.2 箱線圖
上邊緣:除異常點以外的數據中的最大值
上四分位數:將所有數據按照從小到大的順序排序排在第75%位置的數字
下四分位數:將所有數據按照從小到大的順序排序排在第25%位置的數字
下邊緣:除異常點以外的數據中的最小值
3.3 莖葉圖
將數據分為莖和葉兩部分,這里的莖是指十位上的數字,葉是指個位上的數字。將莖部分(十位)從小到大,從上到下寫出來。相對於各自的莖,將同一莖(十位)的葉子(個位)從小到大,從左往右寫出來。
3.4 線圖
3.5 柱形圖
柱形圖:顯示一段時間內的數據變化或顯示各項之間的比較情況。
3.6 餅狀圖
餅狀圖,根據各項所占百分比決定在餅圖中的扇形面積。簡單易懂,通俗明了,可以更加形象地看出各個項目所占的比例大小。
4. 概率論
4.1 條件概率
已知某個事件A發生的條件下,另一個事件B發生的概率稱為條件概率,記為P(B|A)。看一下P(B|A)與P(A)、P(B)的關系:P(B|A) = P(AB) / P(A)。
條件概率也是概率的一種,所以也符合概率定義的三個條件:
- 非負性:P(B|A) ≥ 0;
- 規范性:對於必然事件S,有P(S|A) = 1;
- 可列可加性:對於兩兩互不相容的事件B1,B2,B3.....,即Bi · Bj = Ø,i ≠ j,i,j = 1,2,......,有P(B1 υ B2 υ ...... | A) = P(B1|A) + P(B2|A) + ......
乘法定理:由條件概率的定義,很容易得到P(AB) = P(B|A)P(A),其中P(A) > 0;這條公式很容易推廣到P(ABC) = P(C|AB)P(B|A)P(A) = P(A|BC)P(B|C)P(C).
4.2 全概率公式
設試驗E的樣本空間為S,A為E的一個事件,B1、B2......Bn是S的一個划分,且P(Bi) > 0 (i=1,2......n),則
在某些時候,事件A的概率不好求,但是通過全概率公式卻可以很容易求得。
4.3 貝葉斯公式
設試驗E的樣本空間為S。A為E的一個事件,B1、B2......Bn是S的一個划分,且P(A) > 0, P(Bi) > 0 (i=1,2,.....,n),則
當對樣本空間的划分由一對對立事件B與¯B組成時,全概率公式和貝葉斯公式可以簡化為
貝葉斯公式的應用——訴訟、疾病診斷、垃圾郵件判別
下面來看一則案例:
4.4 公式比較
乘法公式、全概率公式與貝葉斯公式
- 乘法公式是求“幾個事件同時發生”的概率;
- 全概率公式是求“最后結果”的概率;
- 貝葉斯公式是已知“最后結果”,求“某個事件”的概率。
先驗概率與后驗概率
- P(Bj|A)是在事件A發生的條件下,某個事件Bj發生的概率,稱為“后驗概率”;
- Bayes公式又稱為“后驗概率公式” 或 “逆概公式”;
- 稱P(Bj)為“先驗概率”。
4.5 獨立性與事件
設A、B是兩個事件,如果滿足:P(AB) = P(A)P(B),則稱事件A、B相互獨立。簡稱A、B獨立。
由事件獨立的定義可以推出:
- A、B獨立,且P(A) > 0 ↔ P(B|A) = P(B)。
P(B|A) = P(AB)/P(A) = P(A)P(B) /P(A) = P(B)
- 若A、B獨立,則A與¯B、¯A與¯B也相互獨立。
P(A) = P(A|B)P(B) + P(A|¯B)P(¯B) = P(A)P(B) + P(A¯B)
故P(A¯B) = P(A) - P(A)P(B) = P(A)(1-P(B))=P(A)P(¯B)
設A、B、C是三個事件,若滿足
則稱A、B、C相互獨立。
4.6 相互獨立事件與互斥事件、對立事件
相互獨立事件:兩個事件沒有一點關系。
互斥事件:要么只有其中一個事件發生,要么兩個事件都不發生。
對立事件:兩個之中,只有一個發生。跟互斥事件相比,對立事件必然會有一個事件發生。
互斥事件與對立事件都不是相互獨立事件!