先由測得的樣本數據計算檢驗統計量,若計算的統計量值落入約定顯著性水平a 時的拒絕域內,說明被檢參數之間在所約定的顯著性水平a 下在統計上有顯著性差異;反之, 若計算的統計量值落入約定顯著性水平a 時的接受域內,說明被檢參數之間在統計上沒有顯著性差異,是同一總體的參數估計值。
1、概率密度函數
在分類器設計過程中(尤其是貝葉斯分類器),需要在類的先驗概率和類條件概率密度均已知的情況下,按照一定的決策規則確定判別函數和決策面。但是,在實際應用中,類條件概率密度通常是未知的。那么,當先驗概率和類條件概率密度都未知或者其中之一未知的情況下,該如何來進行類別判斷呢?其實,只要我們能收集到一定數量的樣本,根據統計學的知識,可以從樣本集來推斷總體概率分布。這種估計方法,通常稱之為概率密度估計。它是機器學習的基本問題之一,其目的是根據訓練樣本來確定x(隨機變量總體)的概率分布。密度估計分為參數估計和非參數估計兩種。
2、參數估計
參數估計:根據對問題的一般性認識,假設隨機變量服從某種分布(例如,正態分布),分布函數的參數可以通過訓練數據來估計。參數估計可以分為監督參數估計和非監督參數估計兩種。參數估計當中最常用的兩種方法是最大似然估計法和貝葉斯估計法。
監督參數估計:樣本所屬類別及條件總體概率密度的形式已知,表征概率密度的某些參數是未知的。
非監督參數估計:已知樣本所屬的類別,但未知總體概率密度函數的形式,要求推斷出概率密度本身。
3、非參數估計
非參數估計:已知樣本所屬的類別,但未知總體概率密度函數的形式,要求我們直接推斷概率密度函數本身。即,不用模型,只利用訓練數據本身來對概率密度做估計。
非參數估計常用的有直方圖法和核方法兩種;其中,核方法又分為Pazen窗法和KN近領法兩種。
原文:https://blog.csdn.net/carson2005/article/details/39180215