我們觀測世界,得到了一些數據,我們要從這些數據里面去找出規律來認識世界,一般來說,在概率上我們有一個一般性的操作步驟
1. 觀測樣本的存在
2. 每個樣本之間是獨立的
3. 所有樣本符合一個概率模型
我們最終想要得到的是一個概率密度的模型,有了概率密度模型以后,我們就可以統計預測等非常有用的地方,因此,首要任務是找出一些概率分布的概率密度模型。
我們來分析一下上面的三個步驟,第一第二都很好解決,關於第三點,我們可以有不同的處理方式
如果我們已經對觀測的對象有了一些認識,對觀測的現象屬於那種類型的概率密度分布已經了解了,只是需要確定其中的參數而已,這種情況就是屬於參數估計問題。
如果我們研究觀測的對象,也很難說這些觀測的數據符合什么模型,參數估計的方法就失效了,我們只有用非參數估計的辦法去估計真實數據符合的概率密度模型了。
因此,本文主要討論 參數估計和非參數估計問題
1. 參數估計
對我們已經知道觀測數據符合某些模型的情況下,我們可以利用參數估計的方法來確定這些參數值,然后得出概率密度模型。這個過程中用到了一個條件,就是概率分布符合某些模型這個事實。在這個事實上進行加工。
一般來說,參數估計中,最大似然方法是最重要和最常用的,我們重點介紹參數估計方法
我們在《無基礎理解貝葉斯》中已經講過似然性,那么我們就可以先寫出似然函數。
假設有N個觀測數據,並且概率模型是一個一維的高斯模型,用f(x)表示高斯模型,參數待定,因此我們可以寫出似然函數
L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二個等式用到了樣本之間是獨立性這個假設(上面提到的一般步驟的第二條)
然后把對似然函數取對數
logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))
我們既然提到了極大釋然方法,那就是要求出使得logL(x1,x2,...xn) 取最大值得參數。
因此對 logL(x1,x2,...xn) 求導等於0的參數就是符合要求的參數。
注意,如果似然函數求導有困難,通常我們會用迭代方法去求得這些參數,后面我們講EM算法就是屬於此類型
2. 貝葉斯方法
在我們談到參數估計方法中,我們假定了參數是固定值,但是貝葉斯觀點會人文,模型的參數值不是固定的,也是屬於某種分布的狀態。
因此我們做參數估計的時候其實是不准確的,因此貝葉斯方法會把參數的也作為一個概率考慮進來,然后再去觀測。
我個人理解,這種方式也只能算是參數估計里面的一個變種而已
后驗概率 ∝ 似然性 * 先驗概率
先驗概率,我們可以看成是待估計模型的參數的概率分布,后驗模型是在我們觀測到新的數據以后,結合先驗概率再得出的修正的參數的分布
注意,如果似然函數的形式和先驗概率的乘積有同樣的分布形式的話,得到的后驗分布也會有同樣的分布模型
因此,人為的規定,如果先驗概率與似然函數的乘積在歸一化以后,與先驗分布的形式上是一致的話,似然函數與先驗概率就是共軛的,注意共軛不是指先驗與后驗的共軛
至於滿足這個條件的共軛分布有很多種,二項分布與貝塔分布,多項式分布於狄利克雷分布等
后面有時間再更新一些貝葉斯方法相關的內容
3. 非參數估計
看過了參數估計后,我們知道,如果有模型的知識可以利用的話,問題就會變得很簡單,但是如果沒有關於模型的知識,我們怎么辦?
回過頭來看我們的目標,求出觀測數據的概率密度模型。因此我們就會從概率密度這個定義開始分析,看有沒有可以入手的地方。
概率密度,直觀的理解就是在某一個區間內,事件發生的次數的多少的問題,比如N(0,1)高斯分布,就是取值在0的很小的區間的概率很高,至少比其他等寬的小區間要高。
我們把所有可能取值的范圍分成間隔相等的區間,然后看每個區間內有多少個數據?這樣我們就定義出了直方圖,因此直方圖就是概率密度估計的最原始的模型。
直方圖我們用的是矩形來表示縱軸,當樣本在某個小區間被觀測到,縱軸就加上一個小矩形。
這樣用矩形代表的模型非常粗糙,因此可以用其他的形狀來表示,進一步就是核密度估計方法,這個后面會有一個翻譯文章來具體講解
基本上,參數估計和非參數估計是概率模型里面用的非常多的基本概念,希望自己在后面忘記的時候還能想起來曾經寫過的東西
