概率筆記10——矩估計和最大似然


估計

  生活中我們經常估計一些數值,比如從家到學校要走多久?一顆大白菜大概多少斤?憑什么估計出具體數值呢?“估計”不是瞎猜,是根據已有數據計算的。從家到學校往返過多次,手上也拿過無數顆白菜,此時我們會憑借心中的尺度計算出一個大約的數值。

矩估計

  矩估計,即矩估計法,也稱“矩法估計”,是利用已有樣本估計期望值的一種方法。

  某個問題的數學期望客觀存在的數學特征,是一個具體的數值,只是這個數值計算起來需要知道一些“已知條件”,而這些已知條件在現實世界中並不可知。幸運的是,我們可以隨時得到一些隨機樣本,利用這些樣本估計一個數值:

  戴帽子的等號表示估計。每個xi都是一個簡單隨機樣本,並且我們認為每個樣本都是等可能的,這實際上是真實世界中一種不得已而為之的辦法。在大數定律下的作用下,這個估計將會逐漸穩定,逼近真實值。

  現在有甲、乙兩個射擊運動員站在我們面前,他們的平均成績並沒有貼在身上,如何判斷他們的成績呢?

  一個符合經驗的做法是讓他們各打10槍,然后計算均值。比如xi是甲第i槍的成績,那么我們對甲的估計是(x1+x2+…+x10)/10。這里使用的是簡單的均值,並沒有任何概率參與,原因是我們並不知道甲打出每一環的概率,只好認為是等權平均。數學期望是運動員的真實成績,我們在計算數學期望時需要已知運動員打出每一環的概率,然而“已知”在並不總是存在於現實世界,因此才退而求其次,使用“估計”。

獨立同分布

  獨立同分布是概率論中的一個概念,即一組數據彼此間互不干擾,在現實環境里隨機出現。

  獨立已經介紹過多次,射擊比賽中的每一次射擊都是獨立的,不會因為本次的結果影響下一槍(拋開運動員心理狀態的變化)。如果是從一堆白球中取一個黑球,隨着白球的減少,下次取出黑球的概率會不斷變大,則不能稱每次的取球行為相互獨立。

  “同分布”的意思是每次都從特定的集合中取結果,比如擲骰子,每次都從1~6中取結果,則稱樣本是同分布。如果夾雜着幾個12面的骰子,則樣本不是同分布的。

未知的密度函數

  在連續型變量中,只要我們知道變量的概密度f(x),就可以知道它的期望:

  問題是f(x)通常是未知的,只知道它的模型,但不確定具體的模型參數。我們設這個未知的參數是θ,概率密度是f(x;θ),表示f受到θ的影響,數學期望公式:

  實際上θ是一個向量,例如:

  示例 設連續型隨機變量的概率密度是 求θ的矩估計量。

  可以先計算出X的矩估計:

  只有0<x<1的時候才能計算θ:

最大似然

  最大似然估計方法(Maximum Likelihood Estimate,MLE)也稱為最大概似估計或極大似然估計,是建立在最大似然原理的基礎上的一種統計方法。

最大似然的含義

  “似然”就是“可能性”的意思。我們經常聽到“最大似然”,這個詞來源於實際,下圖解釋了它的含義。

  A、B是兩個一模一樣的箱子,A中有100個白球和1個黑球,B中有100個黑球和1個白球。現在從兩個箱子中隨意取出一個小球,結果是黑球,這個黑球是從哪個箱子中取出的?第一反應是“最有可能從B中取出的”,這符合通常的經驗。這里的“最有可能”就是“最大似然”的意思。

似然和似然函數

  假設有一個獨立同分布的數據集X,它的參數是θ。現在從X中取出一些樣本x={ x1, x2, …, xn},P(x;θ)表示給定參數θ時,從X中取得這些樣本x的可能性:

  其中P(x;θ)類似於條件概率,但不等於條件概率,因為θ只是一個密度函數中的參數,並不是一個事件。

  假設現在θ有兩個取值θ1和θ2,對於X中的一些樣本x={ x1, x2, …, xn},如果P(x, θ1 )> P(x, θ2 ),就認為θ1對產生x的可能性(似然性)要大於θ2,P(x, θ1 )和P(x, θ2)就是似然,是對參數θ產生樣本x的可能性的度量。

  還是以射擊為例,假設按運動員的成績由高到低分為一級、二級、三級,甲打出了10槍x={9,9,10,10,8,9,9.5,9.5,9.5,9}。運動員的級別相當於影響成績的參數θ,當θ等於一級時,甲打出這個成績的可能性較高。

  現在需要根據給定樣本x來求P(x; θ),由於樣本是已知的,將所有x的值代入上面的公式,將得到一個只有θ的式子,這個式子稱為θ的似然函數,記為L(x;θ)或L(θ):

最大似然估計

  知道了似然函數,最大似然估計就很容易理解了:對於一個給定的樣本集,挑選使得P(x;θ)能夠達到最大時的參數 作為θ的估計值,使得:

  最終將求得θ的一個估值 ,在 時,似然函數的值最大。

  極值點通常是在導數等於0的點取得,因此可以通過下式求得θ:

  如果θ是n維向量,則:

  對於一些特殊的密度函數(比如指數密度函數)來說,直接求dL/dθ太過繁瑣,由於L與lnL在同一θ處取到極值,所以也經常使用:

示例

示例1

  設樣本的總體分布率為:P{X=x}=px(1-p)1-x,求p在觀察樣本{ x1, x2, …, xn }下的最大似然估計量。

  

  這里只不過是把θ用p表示,現在我們做一下替換,變成熟悉的形式:

  L(θ)是θ的指數形式,換成對數更為簡單:

  根據對數的基本公式繼續計算:

示例2

  總體樣本服從參數為λ的指數分布,{x1, x2, …, xn}是觀察樣本,求λ的最大似然估計值。

  總體樣本的概率密度是:


  作者:我是8位的

  出處:http://www.cnblogs.com/bigmonkey

  本文以學習、研究和分享為主,如需轉載,請聯系本人,標明作者和出處,非商業用途! 

  掃描二維碼關注公作者眾號“我是8位的”


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM