參數模型和非參數模型

本文轉載自查看原文 2021-08-22 22:57 193 【模式識別與機器學習】

原文地址：參數和非參數模型——當我談到參數我在說些什么 - 知乎 (zhihu.com)

對觀察數據集進行描述

假如現在給我們觀察數據 $\mathcal{D} = \{\mathbf{X}_i, Y_i\}, i=0,\cdots,m$ ，其中 $\mathbf{X} \in \mathbb{R}^{n}, Y \in \mathbb{R}$ 是表征這個觀察數據的特征和標簽，其中的 $n$ 表示特征維度， $m$ 表示樣本數量。如果我們嘗試對這個觀察數據進行模型描述，我們可以怎么描述呢？把這個問題記住，我們繼續探討。

我們要認識到，對觀察數據進行描述，指的不光光是把所有數據一個字節一個字節地“記住”（memorize），而是嘗試用一個概率分布去描述這個觀察數據，比如數據的聯合概率分布 $\mathrm{P}(\mathbf{X}, \mathrm{Y})$ 就可以很好地描述這個觀察數據。為什么呢？比如說我們現在輸入樣本的特征是 $X_1 = (0.1,0.2,0.2,0.5,0.1)$ 是一個5維向量，標簽 $\mathrm{Y} = 1$ 表征了其類別，那么概率

$\mathrm{P}(\mathbf{X}=X_1, \mathrm{Y}=1) = 0.1 \\\mathrm{P}(\mathbf{X}=X_1, \mathrm{Y}=0) = 0.3 \\\tag{1.1}$

這個概率表示了樣本 $X_1$ 和標簽 $Y=1$ 或者 $Y = 0$ 同時出現的概率，通過計算邊緣概率分布，我們同樣知道了特征的概率分布：

$\mathrm{P}(\mathbf{X}) = \sum_{i} \mathrm{P}(\mathbf{X}, Y_i)\tag{1.2}$

我們在這里不用考慮(1.1)這個概率是怎么計算出來的（實際上這個正是模型所做的事），我們只要知道通過這種手段可以去表達觀察數據集，我們把這個分布稱之為“模型”（不太准確，但是可以這樣理解）。從這個分布中進行采樣我們足以生成虛擬的樣本（生成模型的領域），當然這都是后話了。同樣的，知道了這個分布，也足以解決我們的樣本分類問題：

$\begin{aligned}\mathrm{P}(Y_j|\mathbf{X}) &= \dfrac{\mathrm{P}(\mathbf{X},Y_j)}{\mathrm{P}(\mathbf{X})} \\&= \dfrac{\mathrm{P}(\mathbf{X},Y_j)}{\sum_i\mathrm{P}(\mathbf{X}, Y_i)}\end{aligned}\tag{1.3}$

好的，那么我們現在的問題就集中在如何才能得到(1.1)的概率分布了，也就是怎么建模了。我們終於要進入正題了，哈哈哈哈。

總的來說，我們可以通過兩種方法進行建模，一種稱之為參數化模型(parametric model)，另一大類是非參數模型(non-parametric model)。注意，這里的“參數”和模型有沒有可以學習的參數（比如神經網絡中的weight）是沒有關系的，非參數模型中可以有很多可學習的參數，但是不妨礙它為非參數模型。那么我們的問題就是怎么去理解這個“參數”了。

參數化模型

對(1.1)的概率分布進行建模，有一種最為直接的方法就是先假設這個分布是服從某個特定分布的，比如高斯分布，泊松分布等等，當然這些分布中有些未知參數需要我們求得，而這些參數也正是決定了這個分布的形狀的，比如高斯分布的均值和協方差決定了不同的高斯分布，如下圖所示。

Fig 1. 不同均值和協方差的高斯分布。

我們也可以假設這個未知分布是多個已知分布的組合，比如多個高斯分布的組合，我們稱之為混合高斯模型（Gaussian Mixture Model,GMM），模型公式[1]如：

$p(x) = \sum_{k=1}^K p(k)p(x|k) = \sum_{k=1}^{K} \pi_k N(x|\mu_k, \Sigma_k)\tag{2.1}$

其實就是K個不同均值和協方差的高斯分布的混合，並且對此進行了加權。

我們也可以假設我們的數據擬合曲線的形式，這個同樣也是在隱式地對概率分布進行建模。經典的包括線性回歸，邏輯斯蒂回歸等，其函數形式都是如同：

$\begin{aligned}y &= \theta_1 x_1 + \theta_2 x_2 \cdots + \theta_n \\&= \Theta \mathbf{X} \\& \Theta \in \mathbb{R}^{n}, \mathbf{X} = (x_1, x_2, \cdots, 1) \in \mathbb{R}^{n}\end{aligned}\tag{2.2}$

同樣的，整個函數的形式都是已經確定了的，無非就是一個直線/超平面而已，但是其具體的 $\Theta$ 的組合，決定了這個超平面的具體走向。

這個就是所謂的參數化模型，我們需要根據經驗，觀察，專家知識等對數據分布進行一定的假設后，然后對決定這個分布形狀的參數集 $\Theta$ 進行求解，這個求解通常根據現有的觀察到的數據集進行，這個參數集 $\Theta$ 是一個有限的集合。

我們可以推出一個結論就是，在參數化模型的框架下，無論我接下來觀察到多少數量的數據，哪怕是無限多個數據，我模型的參數量都只有固定數量多個，那便是 $|\Theta|$ 。也就是說，用有界的參數量（復雜度）對無界的（數據量）的數據分布進行了建模。

假如你的假設分布足夠靠譜，甚至是完全正確的，那么當你通過一些觀察樣本，得到了參數集 $\Theta$ 之后，之后的預測結果將之和這個參數集有關，后續的任何觀察樣本 $\mathcal{D}^{\prime}$ 都和預測結果無關，表示為：

$p(x|\Theta, \mathcal{D}^{\prime}) = p(x|\Theta)\tag{2.3}$

顯然這樣模型並不是很靈活，模型的可靠性強依賴於對數據的人工分析經驗等。

非參數化模型

非參數化模型，和參數化模型截然相反的是，對數據分布不進行任何的假設，只是依賴於觀察數據，對其進行擬合。換句話說，其認為數據分布不能通過有限的參數集 $\Theta$ 進行描述，但是可以通過無限維度的參數 $\theta$ 進行描述，無限維度也就意味着其本質就是一個函數 $f(\cdot) \in \mathbb{R}^{\infty}$ 。

通常，實際中的模型是對這個無限維度參數集的近似，比如神經網絡中的參數，雖然參數量通常很大，也有萬有擬合理論保證其可以擬合函數，但是其只是對無限維度數據的近似而已。由於非參數化模型依賴於觀察數據，因此參數集 $\theta$ 能捕獲到的信息量隨着觀察數據集的數量增加而增加，這個使得模型更加靈活。

常見的模型歸屬

常見的參數化模型和非參數化模型有：

參數化模型非參數化模型應用場景多項式回歸高斯過程函數近似邏輯斯蒂回歸高斯過程分類器分類混合模型，k-means狄利克雷過程混合(Dirichlet process mixtures)聚類隱馬爾科夫模型無限隱馬爾科夫模型時間序列分析PCA/PMF無限隱變量模型(infinite latent factor models)特征發掘.........

需要進行解釋的是，神經網絡可以看成是高斯過程的近似[2]，因此神經網絡也是非參數化模型，k-means在聚類過程中假設數據是球型分布的（也就是歐式距離還管用，歐式距離可以表征樣本之間的相似度的情況）。

這里指的參數到底是啥

所以這里談到的參數到底是個啥呢？我認為，這里的參數與否其實指的是是否用參數對模型的形狀進行了顯式地描述，如有則是參數化模型，沒有，那么就是非參數化模型了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CRC常用參數模型及C#代碼實現如何基於MindSpore實現萬億級參數模型算法？訓練千億參數模型的法寶，昇騰CANN異構計算架構來了~ Softmax函數模型介紹 MATLAB 創建傳遞函數模型 Python的參數模塊OptionParser說明 Python數模筆記-StatsModels 統計回歸（3）模型數據的准備 c++11——可變參數模板 c++11 函數模板的默認模板參數 PLSQL中的三種參數模式IN、OUT、IN OUT