高斯場與調和函數

本文轉載自查看原文 2014-04-21 06:49 2548 調和函數/ 機器學習/ 半監督學習/ 直推學習/ 高斯隨機場

高斯場與調和函數是一種半監督的學習方法，也是一種直推式學習（transductive learning）方法。即測試樣本是已知的，所以在學習的過程中，可以充分利用測試樣本，以使學習出來的模型能更好的預測測試樣本。

1. 高斯隨機場 (Gaussian Random Fields)

有$ l $個已標記的樣本$ (x_1, y_1),...,(x_l, y_l) $, $ u $個未標記的樣本$ x_{l+1},..., x_{l+u} $。使用$L$和$U$分別表示標記樣本與未標記樣本集合。假設這是個兩類問題，則$y_L \in \{0,1\}$。將每個樣本當作一個結點，構建一個連接圖$G=(V,E)$，其中V是結點，E是邊。使用$n \times n$的權重矩陣$W$來表示邊。$W$可以用RBF核計算：

\[w\_{ij} = exp( -\frac{1}{\sigma^2} \sum_{d=1}^m (x\_{id} - x\_{id})^2 \]

在結點上，定義一個實值函數：$f:L \cup U \rightarrow \mathbb{R} $。我們希望相似的結點，其類別標簽也相似。所以可定義二次能量函數

\[E(f)=\frac{1}{2}\sum_{i,j} w\_{ij} (f(i)-f(j))^2 \]

希望尋找合適的$f$，使得能量函數最小。因為標記數據的類別是已知的，可以給$f$增加約束條件$f(i)=y_i, i\in L$。

定義$f$函數的概率分布：

\[p(f)=\frac{1}{Z}e^{-\beta E(f)} \]

$\beta$是參數，$Z$是配分函數

\[Z = \int\_{f\_L=y\_L} exp(-\beta E(f))df \]

我們更感興趣的是$p(f_i|Y\_L), i \in U$。

$p(f)$和$p(f\_U|Y\_L)$都是服從多元高斯分布。這就是為什么$p$被稱為高斯隨機場。

2. 圖拉普拉斯（The Graph Laplacian）

此處引入組合拉普拉斯$\Delta$。定義對角矩陣$D$，其中$D\_{ii}=\sum_j W\_{ij}$是結點$i$的度。拉普拉斯定義為

\[\Delta = D - W \]

則能量函數可以記作：

\[E(f) = \frac{1}{2}\sum_{i,j} w\_{ij} (f(i)-f(j))^2 = f^T \Delta f \]

高斯隨機場可以寫作：

\[p(f) = \frac{1}{Z} {e^{-\beta f^T \Delta f}} \]

$p(f)$是$f$的二次函數。$\Delta$是高斯分布的精度矩陣。如果$W$是對稱且非負的，則$\Delta$一定至少是半正定的。

3. 調和函數 (Harmonic Functions)

可以證明，最小能量函數$f=argmin\_{f\_L=Y\_L}E(f)$是調和的。也就是，在未標記數據上$\Delta f=0$，在標記數據上$\Delta f=Y\_L$。下文中，我們使用$h$來表示這個調和函數。

調和函數的性質，意味着每個未標記點的$h(i)$值是其近鄰的平均值：

\[h(i) = \frac{1}{D\_{ii}} \sum_{j \in N\_p(i)} w\_{ij} h(j), \; for \; i \; \in U \]

這也與圖的平滑性假設相一致。由於調和函數的最大值原理，$h$是唯一的，且當$i\in U$時，$0 \le h(i) \le 1$ （當$i\in L$時，$h(i)=0$或$1$）。

為了求解調和函數$h$，我們將權重矩陣$W$，$D$和$\Delta$分割成$4$塊：

\[W = \left[ \begin {array}{cc} W\_{LL} & W\_{LU} \\\ W\_{UL} & W\_{UU} \end {array} \right] \]

通過上述的性質$\Delta h = 0$和$h\_L = Y\_L$，可以得

\[h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L \\\ = -(\Delta\_{UU})^{-1} \Delta\_{UL} Y\_L \\\ = (I - P\_{UU})^{-1} P\_{UL} Y\_L \]

上述結果與label propagation算法的結果一樣。其中$P = D^{-1}W$是圖的變換矩陣。

4. 總結

給定標記樣本 $(x\_1, y\_1),..,(x\_l, y\_l)$ 與未標記樣本 $x_{l+1},..., x_{l+u} $，可以通過上述過程，求解出未標記樣本的類別標簽。

首先求解出調和函數$h$

\[h\_U = (D\_{UU} - W\_{UU})^{-1} W\_{UL} Y\_L \]

再通過$h$，求解出$Y\_U$

\[ y\_u = \begin{cases} 1 & if \;\; h\_u \ge 0.5 \\\ 0 & if \;\; h\_u < 0.5 \\\ \end{cases} \]

此外，該方法還與隨機游走（Random Walk），彈性網絡（Electric Networks）以及圖切（Graph Mincut）都有着緊密的聯系。甚至與圖的譜聚類，核正則化等都有着聯系。

參考文獻：

Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In The 20th International Conference on Machine Learning (ICML), 2003. ICML 10-Year Classic Paper Prize.
Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, 2005. CMU-LTI-05-192.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 共軛調和函數關於調和函數的一些性質高斯函數高斯函數回調函數之同步回調和異步回調高斯核函數高斯函數和正態分布高斯函數及其各階導數高斯核函數詳解回調函數——以JS為例解讀異步、回調和EventLoop