核均值嵌入(KME, kernel mean embeddings)


概念引入

在介紹MMD的時候,MMD被定義為

\[\|\mathbf{E}_{x\sim P(x)}\phi(x) - \mathbf{E}_{y \sim Q(y)}\phi(y)\| \]

我們把\(\mathbf{E}_{x\sim P(x)}\phi(x)\)稱作kernel mean embeddings (Hilbert Space Embedding of Marginal Distributions,KME),即mean embeddings被定義為,

\[\mu_P = \mathbf{E}_{x\sim P(x)}\phi(x) \]

這個KME可以看做是分布\(P\)在Hilbert空間中的一個元素。在滿足一定的條件下(RKHS是universal時)這個KME和分布是一一對應的!!!(下面會具體的說明)

舉一個例子

在有限維特征空間內,即\(\mathcal{H}=\mathbb{R}^2\),定義如下的數學期望,
\(\phi(x) = k(\cdot,x)=(x,x^2)\)\(f(\cdot)=(a,b)\)
\(f(x)=(a,b)(x,x^2)^T=ax + bx^2 = \left<f,\phi(x)\right>_{\mathcal{H}}\)
假設一個隨機變量\(x\sim P\),我們有

\[\mathbb{E}_Pf(x)=\mathbb{E}_P \left( (a,b)(x,x^2)^T \right)=(a,b)(\mathbb{E}_P x, \mathbb{E}_Px^2)^T=: (a,b)\mu_P^T \]

其實這個例子反映出核的重構屬性,

\[\mathbb{E}_Pf(x)= \mathbf{E}_P \left<f,\phi(x)\right>=\left<f, \mathbf{E}_P\phi(x)\right> = \left<f, \mu_P\right>_\mathcal{H} \]

KME存在性證明

絕大多數情況下,RKHS \(\mathcal{H}\)都是無窮維的。
假設\(\phi(x)=(\phi_1(x),\phi_2(x),\cdots)\in \mathcal{H}\)是無窮維的。給定一個正定核\(k(x,y)\),則有如下等式:

\[\left<\mu_P,\mu_Q\right>_\mathcal{H} = \mathbf{E}_{P,Q}k(x,y) \]

對於\(x\sim P\)\(y \sim Q\)

給定一堆樣本\(x_1,x_2,\cdots,x_n \sim P\)\(\mu_P \in \mathcal{H}\)經驗評估為,

\[\hat \mu_P = \mathbf{E}_P \phi(x) = \frac{1}{n}\sum_{i=1}^n k(\cdot, x_i) \]

特別注意,因為\(\phi(x)=k(\cdot,x)\)往往是無窮維的,在實際評估的過程中,往往根據實際需求,利用kernel trick。即通過平方展開,湊出\(\left<\phi(x),\phi(y)\right>\)這樣的內積,然后替換成\(k(x,y)\),以達到計算的目的。所以,RKHS其實是一個“隱”空間,在絕大部分的算法中都不涉及在RKHS中直接運算。

因為\(\mathcal{H}\)是無窮維的,所以\(\mu_P\)可能並不存在。下面給出Riesz representation theorem:

(Riesz representation theorem) 在Hilbert空間\(\mathcal{F}\)中,對於所有的有界線性算子\(A:\mathcal{H}\mapsto \mathbb{R}\),都存在\(g_A\in \mathcal{F}\)滿足,

\[Af = \left<f, g_A\right>,\forall f \in \mathcal{F} \]

有界線性算子( bounded linear operator)的定義是

一個線性算子\(A:\mathcal{F}\mapsto \mathbb{R}\)是有界的,當且僅當存在\(\lambda_A\)使得

\[|Af| \leq \lambda_A\|f\|,\forall f\in \mathcal{F} \]

Riesz呈現定理實際上是指,一個有界線性算子可以和Hilbert空間中的元素相對應。本質上\(\mathcal{F}'=\{A:\mathcal{F}\mapsto \mathbb{R}\}\)和Hilbert空間\(\mathcal{F}\)共軛同構,即可以將這個兩個空間視為同一空間。Hilbert空間的一個基本性質是自共軛性。(\(\mathcal{F}'\)被稱作\(\mathcal{F}\)的對偶空間)

基於Riesz定理,我們只要能找到在對偶空間\(\mathcal{H}'\)中與\(\mu_P\)相對應的線性算子,然后證明該算子是有界的。下面給出KME存在性的定理。

如果\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\),則\(\mu_P\in \mathcal{H}\)

證明:

構建線性算子\(T_P:\mathcal{H}\mapsto \mathbb{R}\),即\(T_Pf:=\mathbf{E}_P f(x),\forall f \in \mathcal{H}\),則

\[|T_Pf| = |\mathbf{E}_P f(x)| \leq \mathbf{E}_P|f(x)| \]

\[=\mathbf{E}_P|\left<f,\phi(x)\right>| \]

\[\leq\mathbf{E}_P \left(\|\phi(x)\|\|f\|\right) = \mathbf{E}_P \left(\sqrt{k(x,x)}\|f\|\right) \]

第一行用到的是 Jensen 不等式。
因為由Riesz定理,當\(\mathbf{E}_P \sqrt{k(x,x)}< \infty\)時,\(T_P\)是有界線性算子。而\(T_Pf = \left<f, \mathbf{E}_P\phi(x)\right>=\left<f, \mu_P\right>\),故\(\mu_P\)存在。

這個是非常重要的一個定理,保證了KME的存在性。

KME的理解

  1. KME \(\mu_P\)是一種“隱式表達”,在實際的應用中,我們並不知道\(\mu_P\)的具體形式,我們只知道核函數\(k(x,y)\)的形式。因此,在實際應用的過程中,“尋找”內積,然后湊出核函數。如在MMD計算中,通過平方展開,消除所有的\(\phi\)

  2. RKHS \(\mathcal{H}\)是一個函數空間,所以\(\mu_P \in \mathcal{H}\)是一個“函數”,利用核的重構性質

\[\mu_P(t) = \left<\mu_P,\phi(t)\right>= \mathbf{E}_P k(x,t) \]

KME本質上是核函數的數學期望。

  1. 回想一下MMD,在上節當中,我們定義MMD為

\[\text{MMD}(P,Q)=\|\mathbf{E}_P \phi(x) - \mathbf{E}_Q \phi(x)\|=\|\mu_P - \mu_Q\| \]

分布\(P\)\(Q\)之間的相似性由兩個KME之間的“距離”來測量。假設\(\mu_P = (x_1,x_2,\cdots)\)\(\mu_Q=(y_1,y_2,\cdots)\),則

\[\text{MMD}(P,Q)^2 = (x_1-y_1)^2+(x_2-y_2)^2+\cdots \]

顯然可知,當KME的每一位都相等時(\(x_i=y_i\)),MMD等於0。如果\(\mu_P\)與分布\(P\)是一一對應的,我們就可以由MMD是否為0推斷出兩個分布是否相同!!!
我們由這樣一個重要的定理,

定理: 如果\(k\)是一致逼近核(universal kernel),則\(\text{MMD}(P,Q)\)\(0\)當且僅當\(\mu_P = \mu_Q\)

常見的一致逼近核包括:
高斯核:

\[k(x,y)=\exp \left(-\frac{\|x-y\|^2}{\delta} \right) \]

拉普拉斯核:

\[k(x,y)=\exp \left(-\frac{\|x-y\|}{\delta} \right) \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM