概念引入
在介紹MMD的時候,MMD被定義為
我們把\(\mathbf{E}_{x\sim P(x)}\phi(x)\)稱作kernel mean embeddings (Hilbert Space Embedding of Marginal Distributions,KME),即mean embeddings被定義為,
這個KME可以看做是分布\(P\)在Hilbert空間中的一個元素。在滿足一定的條件下(RKHS是universal時)這個KME和分布是一一對應的!!!(下面會具體的說明)
舉一個例子
在有限維特征空間內,即\(\mathcal{H}=\mathbb{R}^2\),定義如下的數學期望,
\(\phi(x) = k(\cdot,x)=(x,x^2)\),\(f(\cdot)=(a,b)\)
\(f(x)=(a,b)(x,x^2)^T=ax + bx^2 = \left<f,\phi(x)\right>_{\mathcal{H}}\)
假設一個隨機變量\(x\sim P\),我們有
其實這個例子反映出核的重構屬性,
KME存在性證明
絕大多數情況下,RKHS \(\mathcal{H}\)都是無窮維的。
假設\(\phi(x)=(\phi_1(x),\phi_2(x),\cdots)\in \mathcal{H}\)是無窮維的。給定一個正定核\(k(x,y)\),則有如下等式:
對於\(x\sim P\)和\(y \sim Q\)。
給定一堆樣本\(x_1,x_2,\cdots,x_n \sim P\),\(\mu_P \in \mathcal{H}\)經驗評估為,
特別注意,因為\(\phi(x)=k(\cdot,x)\)往往是無窮維的,在實際評估的過程中,往往根據實際需求,利用kernel trick。即通過平方展開,湊出\(\left<\phi(x),\phi(y)\right>\)這樣的內積,然后替換成\(k(x,y)\),以達到計算的目的。所以,RKHS其實是一個“隱”空間,在絕大部分的算法中都不涉及在RKHS中直接運算。
因為\(\mathcal{H}\)是無窮維的,所以\(\mu_P\)可能並不存在。下面給出Riesz representation theorem:
(Riesz representation theorem) 在Hilbert空間\(\mathcal{F}\)中,對於所有的有界線性算子\(A:\mathcal{H}\mapsto \mathbb{R}\),都存在\(g_A\in \mathcal{F}\)滿足,
\[Af = \left<f, g_A\right>,\forall f \in \mathcal{F} \]
有界線性算子( bounded linear operator)的定義是
一個線性算子\(A:\mathcal{F}\mapsto \mathbb{R}\)是有界的,當且僅當存在\(\lambda_A\)使得
\[|Af| \leq \lambda_A\|f\|,\forall f\in \mathcal{F} \]
Riesz呈現定理實際上是指,一個有界線性算子可以和Hilbert空間中的元素相對應。本質上\(\mathcal{F}'=\{A:\mathcal{F}\mapsto \mathbb{R}\}\)和Hilbert空間\(\mathcal{F}\)共軛同構,即可以將這個兩個空間視為同一空間。Hilbert空間的一個基本性質是自共軛性。(\(\mathcal{F}'\)被稱作\(\mathcal{F}\)的對偶空間)
基於Riesz定理,我們只要能找到在對偶空間\(\mathcal{H}'\)中與\(\mu_P\)相對應的線性算子,然后證明該算子是有界的。下面給出KME存在性的定理。
如果\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\),則\(\mu_P\in \mathcal{H}\)。
證明:
構建線性算子\(T_P:\mathcal{H}\mapsto \mathbb{R}\),即\(T_Pf:=\mathbf{E}_P f(x),\forall f \in \mathcal{H}\),則
\[|T_Pf| = |\mathbf{E}_P f(x)| \leq \mathbf{E}_P|f(x)| \]\[=\mathbf{E}_P|\left<f,\phi(x)\right>| \]\[\leq\mathbf{E}_P \left(\|\phi(x)\|\|f\|\right) = \mathbf{E}_P \left(\sqrt{k(x,x)}\|f\|\right) \]
第一行用到的是 Jensen 不等式。
因為由Riesz定理,當\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\)時,\(T_P\)是有界線性算子。而\(T_Pf = \left<f, \mathbf{E}_P\phi(x)\right>=\left<f, \mu_P\right>\),故\(\mu_P\)存在。
這個是非常重要的一個定理,保證了KME的存在性。
KME的理解
-
KME \(\mu_P\)是一種“隱式表達”,在實際的應用中,我們並不知道\(\mu_P\)的具體形式,我們只知道核函數\(k(x,y)\)的形式。因此,在實際應用的過程中,“尋找”內積,然后湊出核函數。如在MMD計算中,通過平方展開,消除所有的\(\phi\)。
-
RKHS \(\mathcal{H}\)是一個函數空間,所以\(\mu_P \in \mathcal{H}\)是一個“函數”,利用核的重構性質,
KME本質上是核函數的數學期望。
- 回想一下MMD,在上節當中,我們定義MMD為
分布\(P\)和\(Q\)之間的相似性由兩個KME之間的“距離”來測量。假設\(\mu_P = (x_1,x_2,\cdots)\),\(\mu_Q=(y_1,y_2,\cdots)\),則
顯然可知,當KME的每一位都相等時(\(x_i=y_i\)),MMD等於0。如果\(\mu_P\)與分布\(P\)是一一對應的,我們就可以由MMD是否為0推斷出兩個分布是否相同!!!
我們由這樣一個重要的定理,
定理: 如果\(k\)是一致逼近核(universal kernel),則\(\text{MMD}(P,Q)\)為\(0\)當且僅當\(\mu_P = \mu_Q\)。
常見的一致逼近核包括:
高斯核:
拉普拉斯核: