緒論
- 貝葉斯學派的最基本的觀點是:任一個未知量\(\theta\)都可看作一個隨機變量,應該用一個概率分布去描述對\(\theta\)的未知狀況。這個概率分布是在抽樣前就有的關於\(\theta\)的先驗信息的概率稱述。
- 似然函數屬於聯合密度函數,綜合了總體信息和樣本信息
- 貝葉斯公式的密度函數形式與離散形式,其中\(\theta\)的條件分布稱為\(\theta\)的后驗分布,集中了總體、樣本和先驗等三種信息中有關\(\theta\)的一切信息,排除了與之無關的信息。一般先驗分布\(\pi(\theta)\)反映人們抽樣前的認識,通過抽樣信息(總體信息和樣本信息)對先驗進行調整形成后驗分布。
- 貝葉斯假設,對無信息時,可認為\(\theta\)在區間(0,1)的均勻分布
- 重要分布
- 二項分布: 重復n次獨立的伯努利試驗,每次試驗的成功概率為p,當試驗次數為1時,二項分布服從0-1分布,其分布為:\(P(X=k)=C^k_n p^k(1-p)^{n-k}\), 常用於觀察單位只能具有相互對立的一種結果的猜測活動。
- 指數分布: 描述泊松過程中的事件之間的時間的概率分布 ,即事件以恆定平均速率連續且獨立地發生的過程, 具有無記憶的關鍵性質。常用於描述對發生的缺陷數或系統故障數的測量結果,但不能作為機械零件功能參數的分布規律。密度函數為:\(f(x)=\lambda e^{-\lambda x};x>0\)
- 泊松分布: 適合於描述單位時間內隨機事件發生的次數。 概率函數為:\(P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\);k=0,1.... 當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。
- 貝塔分布,也稱B分布,定義在(0,1) 區間的連續概率分布,其概率密度函數為:\(f(x;\alpha,\beta)=\frac{Γ(\alpha+\beta)}{Γ(\alpha)Γ(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}\),其中貝塔函數\(B(\alpha,\beta)=\int_0^1 x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{Γ(\alpha)Γ(\beta)}{Γ(\alpha+\beta)}\),Γ為伽馬函數\(Γ(x)=\int_0^{+\infty} t^{x-1}e^{-t}dt;(x>0)\),貝塔分布的核為\(\theta^{\alpha-1}(1-\theta)^{\beta-1}\)(注意區分二項分布的核\(\theta^{x}(1-\theta)^{n-x}\)中x為變量,貝塔分布中\(\theta\)是變量)
- 伽馬分布\(Ga(\alpha,\lambda)\),其中\(\alpha\)>0為形狀參數,\(\lambda>0\)為尺度參數,其密度函數為\(p(x|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}\),通過此可以得到\(Y=X^{-1}\)的密度函數:\(p(y|\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\frac{1}{y}^{\alpha+1}e^{\frac{-\lambda}{y}}\),稱為倒伽馬分布記為\(IGa(\alpha,\lambda)\)
- 指數分布簇
- 形如 \(f_X(x|\theta) = h(x)\ g(\theta) \exp[\ \eta(\theta) \cdot T(x)\ ]\)
- 包含如正態分布、多項式分布、泊松分布、伽馬分布、指數分布、貝塔分布和 Dirichlet 分布等
共軛先驗
-
設\(\theta\)是總體分布中的參數(或參數向量),\(\pi(\theta)\)是\(\theta\)的先驗密度函數,假如由抽樣信息算得的后驗密度函數與\(\pi(\theta)\)有相同的函數形式,則稱\(\pi(\theta)\)是\(\theta\)的(自然)共軛先驗分布。通過這種方式計算得到的后驗分布的一些參數可以很好解釋。共軛先驗分布的選區是由似然函數所含的\(\theta\)因式所決定,即選與似然函數(\(\theta\)的函數)具有相同核的分布作為先驗分布。
- 正態均值(方差已知)的共軛先驗分布是正態分布。可以理解為:后驗均值是在先驗均值與樣本均值間采取折衷方案,在處理正態分布時,方差的倒數發揮着重要作用,並稱其為精度,則后驗分布的精度是樣本均值分布的精度與先驗分布精度之和,增加樣本量n或減少先驗分布方差都有利於提高后驗分布的精度。
\[先驗知識\theta \sim N(\mu,\tau^2) 總體分布x \sim N(\theta,\sigma^2)樣本 \overline{x}, \sigma_0^2=\frac{\sigma^2}{n}\\ 后驗知識\pi(\theta|\pmb{x}) \sim N(\mu_1,\tau_1^2) \\ \]\[\mu_1=\frac{\frac{\mu}{\tau^2}+\frac{\overline{x}}{\sigma_0^2}}{ \frac{1}{\tau^2}+\frac{1}{\sigma_0^2} } \\ \frac{1}{\tau_1^2}=\frac{1}{\tau^2}+\frac{1}{\sigma_0^2} \]- 二項分布的成功概率\(\theta\)的共軛先驗分布是貝塔分布
\[先驗\theta \sim Be(\alpha,\beta)總體X \sim b(n,\theta)\\ 后驗\pi(\theta|\pmb{x}) \sim Be(\alpha+x,\beta+n-x) \]\[E(\theta|x)=\frac{\alpha+x}{\alpha+\beta+n}=\frac{n}{\alpha+\beta+n}\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\frac{\alpha}{\alpha+\beta} \\ Var(\theta|x)\approx \frac1n \frac{x}{n}(1-\frac{x}{n}) \]- 常用共軛先驗分布
-
在單參數指數族場合,使用共軛先驗分布得后驗均值一定值於先驗均值與樣本均值(或樣本方差等)之間。
-
后驗分布的計算:由於\(m(x)\)不依賴於\(\theta\),在計算時僅起到正則化因子的作用,$$\pi(\theta|\pmb{x}) \propto p(\pmb{x}|\theta)\pi(\theta)$$,其中各因子提取出僅與\(\theta\)有關的稱為核。計算時可以略去與\(\theta\)無關的因子。
-
先驗分布的選取,應以合理性作為首要原則
確定先驗信息
超參數:先驗分布中所含的未知參數稱為超參數。無信息先驗分布一般不含超參數。
-
確定超參數的估計值
- 利用先驗矩(根據歷史若干個估計值,進行加工整理,得到相關值,估計值來源一般為專家經驗)
- 利用先驗分位數(確定兩個分位數,得到方程式,解得相關值)
- 利用先驗矩和先驗分位數
-
多參數模型(實際問題中常有多個未知參數,而一般不關注的參數稱為討厭參數)
- 正態均值與正態方差的(聯合)共軛先驗分布為正態-逆伽馬分布記為\(N-IGa(v_n,\mu_n\sigma_n^2)\)
-
充分統計量
- 設x是來自分布函數\(F(x|\theta)\)的一個樣本,\(T=T(x)\)是統計量,假如在給定T(x)的條件下,x的條件分布與\(\theta\)無關的話,則稱該統計量為\(\theta\)的充分統計量。
- 設\(x\)為密度函數\(p(x|\theta)\)的一個樣本,\(T(x)\)為\(\theta\)的充分統計量的充要條件是,用樣本分布\(p(x|\theta)\)算得的后驗分布與統計量\(T(x)\)算得的后驗分布是相同的。如二維統計量\(T=(\overline{x},Q)\)恰好是量\((\mu,\sigma^2)\)的充分統計量。
- 使用充分統計量可以簡化數據、降低樣本維數,從而簡化后驗分布的計算。
貝葉斯估計
-
條件方法
后驗分布是在樣本x給定下θ的條件分布,基於后驗分布的統計推斷就意味着只考慮已出現的數據(樣本觀察值),而認為未出現的數據與推斷無關,這一重要的觀點被稱為“條件觀點“,基於這種觀點提出的統計推斷方法被稱為條件方法。
貝葉斯估計
-
從后驗分布中選用某個特征量作為θ的估計。使后驗密度達到最大的值\(\theta_{MG}\)稱為最大后驗估計;后驗分布的中位數\(\theta_{Me}\)稱為\(\theta\)的后驗中位數估計;后驗分布的期望值\(\theta_{E}\)稱為θ的后驗期望估計,這三個估計也都稱為θ的貝葉斯估計,記為\(\theta_{B}\),在不引起混亂時也記為\(\theta_{0}\)。實際中,一般采用后驗期望估計作為貝葉斯估計。
- 估計的誤差。取后驗均值可使后驗均方差達到最小。
- 柯西分布 期望不存在
區間估計
對於區間估計問題,貝葉斯方法具有處理方便和含義清晰的優點,而經典方法尋求的置信區間常受到批評。
-
可信區間:
設參數\(\theta\)的后驗分布為\(\pi(\theta|x)\),給定樣本x和概率α (0<α<1),若存在這樣兩個統計量\(\theta_U\) \(\theta_L\),使得\(P(\theta_L \le \theta \le \theta_U | x) > 1-\alpha\),則稱區間[\(\theta_U\) ,\(\theta_L\) ]為\(\theta\)的可信水平為\(1-\alpha\)的貝葉斯可信區間,即參數\(\theta\)的\(1-\alpha\)的可信區間。仿照經典方法,可以得到\(1-\alpha\)的單側可信下限和\(1-\alpha\)的單側可信上限。
- 貝葉斯方法可信區間的尋求,較經典統計方法更簡單。
- 經典統計求得的是置信區間,而貝葉斯得到的是可信區間,可信區間更符合理解和解釋。
-
最大后驗密度(HPD)可信區間
區間長度最短,並把具有最大后驗密度的點都包含在區間內,而區間外的點上的后驗密度函數值不超過區間內的后驗密度函數值
- 若后驗密度函數是單峰對稱的,則\((1-\alpha)HPD\)可信空間為等尾可信區間,單峰不對稱需要計算機器輔助計算;多峰則可能出現可信區間不連續的情況。
- PS: 當后驗密度函數出現多峰時,常常是由於先驗信息與抽樣信息不一致引起的,而共軛先驗分布大多是單峰的,這必導致后驗分布也是單峰的,它可能會掩蓋這種不一致信息,故而要慎重對待和使用共軛先驗分布。
-
假設檢驗
獲得后驗分布后,計算兩個假設H0與H1的后驗概率,然后比較兩者的大小,即觀察后驗概率比\(\alpha_0/\alpha_1\),從中選擇最大概率的一方;但當兩者相接近時需要進一步抽樣或搜集信息。此種方法可推廣到三個及以上的假設狀況。
-
貝葉斯因子,既依賴於樣本數據x,還依賴於先驗分布\(\pi\),這會減弱先驗的影響,突出數據的影響;貝葉斯因子體現了數據支持某假設的程度。貝葉斯因子對樣本信息變化的反應是靈敏的,而對先驗信息變化的反應是遲鈍的。
\[B^\pi(x)=\frac{\text{后驗機會比}}{\text{先驗機會比}}=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{\alpha_0\pi_1}{\pi_0\alpha_1} \]-
簡單對簡單(參數假設為特定值)
\[B^\pi(x)=\frac{\alpha_0\pi_1}{\pi_0\alpha_1}=\frac{p(x|\theta_0)}{p(x|\theta_1)} \] -
復雜對復雜(參數假設為特定區間,使用g(θ)約束θ的范圍表示θ的分布情況,特別的取兩個區間θ的極大似然估計代替g(θ)的加權結果可以得到經典統計的似然比統計量)
-
- 簡單對復雜(綜合前兩種情況的思維,將特定值轉化為以特定值附近區間)
由於此類情況的貝葉斯因子計算簡單,可以使用其計算得到θ的后驗分布:
-
以上的三種可以拓展到多重假設問題,PS: 針對現實問題,需要根據已知的信息和分布特定,設定總體分布和先驗函數。
-
預測(對隨機變量未來觀察值做出統計推斷,一般先獲得變量分布,再取期望、中位數、眾數、一定區間等作為預測值)預測值的方差一般大於實測值的方差。
- 如果無樣本觀察數據,則使用先驗分布獲得隨機變量 x 的邊緣分布m(x)。
- 如果有樣本觀察數據,則使用先驗分布求得后驗分布,再計算隨機變量 x 的后驗預測分布m(x|x)。
- 如果有樣本觀察數據,並估計同參數的另一個隨機變量,則使用先驗分布獲得隨機變量 z 的后驗預測分布m(z|x)。
-
似然原理 當x的樣本值給出時,似然函數為\(L(\theta)=p(x|\theta)=\prod_{i=1}^n p(x_i|\theta)\) 這是一個關於θ的函數,使似然函數在參數空間取最值的\(\hat{\theta}\)稱為最大似然估計。
- 有了觀測值后,似然函數L(θ)包含了所有與試驗有關的θ的信息;
- 如果兩個似然函數成比例,比例函數與θ無關,則兩者包含θ的信息相同
先驗分布的確定
- 主觀概率(人們根據經驗對一個事件發生可能性的個人信念,對取值范圍是離散時更有效)
- 對立事件比較
- 專家意見(詢問專家時需要設計好問題,並對專家有一定的了解便於修正形成自己的主觀概率,或者向多個專家咨詢綜合修正)
- 歷史資料
- 利用先驗信息(參數空間連續)
- 等分區間統計各區間的頻率,繪制直方圖
- 選定先驗密度后再估計超參數
- 定分度與變分度
- 利用邊緣分布m(x)
- 邊緣分布可以看作是混合分布(多個總體加權平均)的推廣,如果p(x|θ)已知,則m(x)可以反映先驗函數的合理性;
- 把\(m^\pi\)作為先驗函數\(\pi\)的似然函數,通過極大似然法選取\(\pi\),這種方法稱為二型極大似然先驗。如果先驗密度函數形式已知,則求解先驗函數中的超參數即可。
- 矩方法(先驗函數形式已知時,利用先驗矩和邊緣分布矩的關系建立方程尋求超參數的估計值)
- 無信息先驗與廣義先驗分布
貝葉斯決策
- 決策三要素:狀態集合、行動集、收益函數Q
- 行動的容許性:行動集中只存在容許的行動(有選擇地可能,有存在地必要)
- 決策准則:悲觀准則(max min)、樂觀准則(max max)、折中准則(樂觀系數)
- 損失函數L = max(Q) - Q "該賺卻沒賺到的錢"。損失函數包含了較多的信息,使用其做決策將更為合理
- 先驗期望准則:以收益函數在先驗信息下得到的先驗期望收益,取最大處為最優行動(與收益函數的原點和單位無關);或以損失函數在先驗信息下得到的先驗損失,取最大處為最優行動。兩種方式只用到了先驗信息,故只能使用正常的先驗分布,而不能使用廣義先驗分布。
- 把損失函數引入貝葉斯統計推斷,就構成了貝葉斯決策問題。
- 后驗風險准則:損失函數對后驗分布的期望稱為后驗風險R,以后驗風險最小處為最優行動(和樣本有關,故是一個決策函數),此時的決策函數為貝葉斯解。
- 決策函數(從樣本到決策的映射)與決策函數類
貝葉斯網絡
- 貝葉斯網絡是用來表示變量間連接概率的圖形模式,能表示復雜聯合概率分布的緊湊表示形式,它提供了一種自然的表示因果信息的方法,用來發現數據間的潛在關系。在這個網絡中,用節點表示變量,有向邊表示變量的依賴關系, 並使用條件概率表(CPT)來描述聯合概率分布。
參考書籍:《貝葉斯統計》
參考答案:https://tc5.us/file/22692114-408635452
更多內容,歡迎關注公眾號 豆豆的筆記本