隨機變量
何謂隨機變量?即給定樣本空間,其上的實值函數
稱為(實值)隨機變量。
期望
離散隨機變量的一切可能值與其對應的概率P的乘積之和稱為數學期望
方差
一個隨機變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離
協方差
在概率論和統計學中用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
相關系數
衡量隨機變量X與Y相關程度的一種方法,相關系數的取值范圍是[-1,1]。相關系數的絕對值越大,則表明X與Y相關度越高。當X與Y線性 時, 相關系數取值為1(正線性相關)或-1(負線性相關)。
中心極限定理
心極限定理說明,在適當的條件下,大量相互獨立隨機變量的均值經適當標准化后依分布收斂於正態分布。這組定理是數理統計學和誤差分析的理 論基礎,指出了大量隨機變量之和近似服從正態分布的條件。並且呈正態分布。
貝葉斯公式
P(h∣D)=P(h)P(D∣h)/P(D)
貝葉斯定理是關於隨機事件A和B的條件概率的一則定理。其中P是在B發生的情況下A發生的可能性,把x關於y的后驗概率,轉換成了y關於x的后驗概率和先驗概率,簡單說,把不好計算的條件概率轉換為好計算的條件概率
全概率公式
設實驗E的樣本空間為S,A為E的事件,B1,B2,...,Bn為S的一個划分,且P(Bi)>0(i=1,2,...,n),則
P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + ... + P(A|Bn)*P(Bn).
上式稱為全概率公式
全概率公式的作用在於將復雜事件的概率求解轉化為在不同情況下發生的簡單事件的概率求和
樣本空間
定義:隨機試驗E的所有結果構成的集合稱為E的 樣本空間,記為S={e},稱S中的元素e為樣本點,一個元素的單點集稱為基本事件.
大數定理
在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似於它的概率。偶然中包含着某種必然。
常用抽樣分布
假設檢驗
在整個總體分布未知或僅知道形式,但各種參數未知,僅有一些測試的樣本數據的場景下,提出某種假設。利用樣本,驗證假設的合理性。
先驗概率
事情未發生,只根據以往數據統計,分析事情發生的可能性,即先驗概率。
后驗概率
事情已發生,已有結果,但求引起這事發生的因素的可能性,有果求因,即后驗概率。 后驗概率,引起的原因,是測量可能錯誤。
后驗概率的計算,是以先驗概率為前提條件的。如果只知道事情結果,而不知道先驗概率(沒有以往數據統計),是無法計算后驗概率的。
后驗概率的計算需要應用到貝葉斯公式
置信區間
求滿足某個概率的區間。 即可以理解為,在這個范圍內,達到某種可信度,可信概率。
主成分分析
是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。廣泛應用到降維里面去
條件概率,聯合概率,邊緣概率
條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P(A|B),讀作“在B條件下A的概率”
聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或者
。
邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合並成其事件的全概率而消失(對離 散隨機變量用求和得全概率,對連續隨機變 量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣 概率表示為P(B)。
最大似然估計
在已知實驗結果的情況下,用來估計滿足這些樣本分布的參數,把可能性最大的那個參數θθ作為真實θ^θ^的參數估計。說的通俗一點:最大似然估計就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
2> 對似然表達式求導,必要時進行預處理,比如取對數(邏輯回歸需要),令其導數為0,得到似然方程。
3> 求解似然方程,得到的參數解即為極大似然估計的解。
離散型隨機變量


連續型隨機變量
