再生核Hilbert空間(RKHS)


在支持向量機SVM中,通常使用核函數將樣本輸入空間轉化為再生核Hilbert空間(Reproducing kernel Hilbert space,RKHS),提高算法處理非線性分類問題的性能。相比於Hilbert空間,RKHS有着很多優秀的性質。下面從RKHS的定義、RKHS刻畫、RKHS與Hilbert空間關系等三個部分展開工作。

RKHS的定義

定義1和定義3給出了再生核Hilbert空間(Reproducing kernel Hilbert space, RKHS)的定義。定理2證明了定義1與定義3的等價性。

定義1 (RKHS定義)。設\(\mathcal{H}\)是一個由定義在非空集合\(\mathcal{X}\)上函數\(f:\mathcal{X}\mapsto \mathbb{K}\)構成的Hilbert函數空間,若函數\(k:\mathcal{X}\times \mathcal{X}\mapsto \mathbb{R}\)滿足:

  • \(∀x∈\mathcal{X} ,k(⋅,x)∈\mathbb{K}\)
  • \(∀x∈\mathcal{X},∀f∈\mathcal{H},\left <f,k(⋅,x) \right >_\mathcal{H}=f(x)\),(重構屬性
  • 特別地,對於\(∀x,y∈\mathcal{X}\),有\(k(x,y)=\left <k(⋅,x),k(⋅,y) \right >_\mathcal{H}\)

其中\(<⋅,⋅>_\mathcal{H}\)是內積。則\(k\)稱為\(\mathcal{H}\)再生核函數\(\mathcal{H}\)再生核Hilbert空間RKHS)。

定義2(求值泛函定義,Evaluation Functional)。設\(\mathcal{H}\)是一個由定義在非空集合\(\mathcal{X}\)上函數\(f:\mathcal{X}↦\mathbb{K}\)構成的Hilbert函數空間,對於一個固定的\(x∈\mathcal{X}\),定義映射\(δ_x:\mathcal{H}↦\mathbb{K}\)滿足\(δ_x f=f(x)\),則\(δ_x\)是在\(x\)點的求值泛函。

顯然,求值泛函\(δ_x\)是一個線性泛函,因為對於\(∀f,g∈\mathcal{H}\)\(∀α,β∈\mathbb{K}\),有

\[δ_x (αf+βg)=(αf+βg)(x)=αf(x)+βg(x)=αδ_x (f)+βδ_x (g) \]

一個重要的數學問題是\(δ_x\)是否是連續線性泛函(是否是有界線性泛函)。下面從求值泛函的有界性質來重新考察再生核Hilbert空間。

定義3(RKHS定義)\(\mathcal{H}\)是再生核Hilbert空間當且僅當對於\(∀x∈\mathcal{X}\),求值泛函\(δ_x\)是有界的,即存在一個與\(x\)有關的常量\(λ_x≥0\)滿足對\(∀f∈\mathcal{H}\),有

\[|f(x)|=|δ_x f|≤λ_x ‖f‖_\mathcal{H} \]

定理1(Riesz表示定理)。在一個Hilbert空間\(\mathcal{H}\)中,對於任意的一個有界線性算子\(A\)均存在\(g_A∈\mathcal{H}\),使得\(Af=\left <f,g_A \right>_H,∀f∈\mathcal{H}\)

下面定理證明了再生核Hilbert空間的兩種定義之間等價性。

定理2\(\mathcal{H}\)是一個再生核Hilbert空間(其求值泛函\(δ_x\)是有界的)當且僅當\(\mathcal{H}\)有一個再生核。

證明:充分性:如果\(\mathcal{H}\)有一個再生核\(k(⋅,⋅)\),下面證明\(δ_x\)是一個有界線性泛函。

\[|δ_x (f)|=|f(x)| \]

\[=|\left <f,k(⋅,x) \right >_\mathcal{H} | \]

\[≤‖k(⋅,x)‖_\mathcal{H} ‖f‖_\mathcal{H} \]

\[=\sqrt{(k(x,x))} ‖f‖_\mathcal{H} \]

其中,第二行是\(k\)的重構屬性,第三行是Schwarz不等式。因此,當\(λ_x=\sqrt{(k(x,x))}\)\(|δ_x (f)|≤λ_x ‖f‖_H\),所以\(δ_x\)是一個有界線性泛函。

必要性:記\(\mathcal{H}'\)\(\mathcal{H}\)的對偶空間,假設\(δ_x∈\mathcal{H}'\)\(δ_x:\mathcal{H}↦\mathbb{K}\)是一個有界求值泛函,有\(δ_x f=f(x)\)。Riesz表示定理表明,\(δ_x\)是有界的,則存在\(g_{δ_x}∈\mathcal{H}\)使得,

\[δ_x f=\left <f,g_{δ_x} \right>_\mathcal{H}, ∀f∈\mathcal{H} \]

因為\(\mathcal{H}\)是一個Hilbert空間,所以存在一個等距共軛線性同構\(I:\mathcal{H}'↦\mathcal{H}\)使得\(δ_x\)映射成\(g_{δ_x}\),即有\(Iδ_x=g_{δ_x}\)。定義\(\mathcal{H}\)上函數\(k\)

\[k(x,x'):=\left <δ_x , δ_{x'} \right>_{\mathcal{H}'} \]

下面我們驗證\(k\)\(\mathcal{H}\)上的再生核。
1. 對\(∀x'∈\mathcal{X}\),我們有\(k(⋅,x')=Iδ_{x'}∈\mathcal{H}\)。因為

\[k(x,x' )=\left <δ_x ,δ_x' \right>_{\mathcal{H}'} =^{(a)}<Iδ_x , Iδ_{x'} >_\mathcal{H} =^{(b)} δ_x (Iδ_{x' } ) =^{(c)}Iδ_{x' } (x) \]

其中,\((a)\)使用了共軛線性同構,\((b)\)使用了\(Iδ_x=g_{δ_x}\)\((c)\)是求值泛函的定義。
2. \(k\)滿足重構屬性,即

\[f(x' )=δ_{x'} f=\left <f,Iδ_{x' } \right>_\mathcal{H}=<f,k(⋅,x') >_\mathcal{H} \]

因此,\(k\)\(\mathcal{H}\)上的再生核。

再生Hilbert空間的定義比較抽象,該如何刻畫一個具體的RKHS呢?

RKHS的刻畫

定義4(正定核函數)。設\(\mathcal{X}\)是一個非空集。對於函數\(\mathcal{X}\times \mathcal{X}↦\mathbb{K}\),若存在一個\(\mathbb{K}\)-Hilbert空間\(\mathcal{H}\)和一個映射\(ϕ:\mathcal{X}↦\mathcal{H}\),滿足對\(∀x,y∈\mathcal{H}\),有

\[k(x,y)=< ϕ(x),ϕ(y)>_\mathcal{H} \]

\(k\)為正定核函數。

引理1。正定核函數一定是正定的。

證明:對於任意的\(∀n≥1\)\(∀(a_1,⋯,a_n )∈\mathbb{C}^n\),\(∀(x_1,⋯,x_n )∈\mathcal{X}^n\),總有

\[\sum_{i=1}^n\sum_{j=1}^n a_i \bar a_j k(x_i,x_j)=\sum_{i=1}^n \sum_{j=1}^n \left <a_i ϕ(x_i ),a_j ϕ(x_j ) \right>=\left \|\sum_{i=1}^n a_i ϕ(x_i ) \right \|^2≥0 \]

所以正定核函數\(k\)是正定的。

引理2。再生核函數一定是正定核函數。

證明:對RKHS \(\mathcal{H}\)中再生核\(k\),滿足\(k(x,y)=<k(⋅,x),k(⋅,y) >_\mathcal{H}\),取\(ϕ:x↦k(⋅,x)\),即證。

正定核函數是否也是再生核函數呢?下面的Moore-Aronszajn定理回答了這個問題。

定理3(Moore-Aronszajn定理)。每一個正定核k都與唯一一個再生核Hilbert空間相對應。

該定理證明比較復雜,參考文獻[1]中第4節。

雖然正定核與再生核相互確定,但對於正定核\(k\),對象\(x\)的映射向量\(ϕ(x)\)並不是唯一的;即給定不同的正交基空間,映射向量\(ϕ(x)\)在不同基下的坐標是不一致的,但是其內積的性質在不同基下是保持一致的。當\(ϕ(x)= k(⋅,x)\)時,\(ϕ(x)\)被稱作\(x\)的典型映射向量。
在實際的計算過程中, \(ϕ(x)\)的維數往往是無窮的,而且很難去計算它的具體的值。我們往往采用核技巧的方法來避免去直接處理\(ϕ(x)\)。我們直接用\(k(x_i,x_j)\)直接替代公式中的\(\left <ϕ(x_i ),ϕ(x_j)\right >\),然后得到算法的非線性版本。這種方法簡化了計算量,而且十分容易去處理。在實際計算過程中我們只需要選擇合適的正定核函數。

RKHS與Hilbert空間的關系

RKHS是一個Hilbert函數空間,Hilbert空間范圍更廣。毫無疑問,RKHS是Hilbert空間的一部分。但是,Hilbert空間未必是RKHS。

RKHS的一個關鍵屬性就是求值泛函的性質。在一般的Hilbert空間下,求值泛函並不是連續的(有界的)。這意味着當依范數f_n↦f時,不能推斷出\(δ_x f_n↦δ_x f\)。比如,在\(L_2 (0,1)\)空間(\(L2\)也是一個Hilbert空間)中,取\(f(x)=0\)\(f_n (x)=\sqrt{n} I(x<1/n^2)\)。有

\[\left \|f_n-f\right \|=\left (\int_0^1\left |\sqrt{n} I(x<\frac{1}{n^2} )-0 \right |^2 dx\right)^{\frac{1}{2}} =\left (∫_0^{\frac{1}{n^2}}n dx \right)^{\frac{1}{2}}=\frac{1}{\sqrt{n}}↦0,n↦∞ \]

\(δ_0 f_n=\sqrt{n}\)顯然不會收斂到\(δ_0 f=0\),當\(n↦∞\)

因此,直觀地說,Hilbert空間中包含了很多非光滑的函數。而在RKHS中,所有函數都依點態收斂\(f_n (x)↦f(x)\),即\(δ_x f_n↦δ_x f\)。這意味着RKHS中的函數相比於Hilbert空間中的函數都是well-behaved,對於\(∀f,f_n∈\mathcal{H}\)當依范數\(f_n↦f\)時,總有\(δ_x f_n=\left <f_n,k(⋅,x)\right >↦\left <f,k(⋅,x)\right >=f(x)=δ_x f\)成立。我們有如下定理。

定理4。如果RKHS中的兩個函數依范數收斂,則它們必然在每一個點都收斂。即如果\(\lim_{n→∞}⁡\|f_n-f\|_\mathcal{H}=0\) ,則有\(\lim_{n→∞} f_n (x)=f(x),∀x∈X\)

證明:對於\(∀x∈\mathcal{X}\)

\[|f_n (x)-f(x)|=|δ_x f_n-δ_x f|≤‖δ_x ‖ ‖f_n-f‖_\mathcal{H} \]

其中\(‖δ_x ‖\)是求值泛函的范數,因為求值泛函是有界的,所以\(‖δ_x ‖<∞\)

綜上分析,Hilbert空間和RKHS最本質的區別是Cauchy列收斂條件。Hilbert空間是完備的,所以Hilbert空間中的所有Cauchy列依范數收斂,即假設\(\{f_n \}_{n=1}^∞\)是Hilbert空間中的Cauchy列,則對任意的\(ε>0\),存在自然數\(N\),使得\(∀i,j>N\)時,有\(‖f_i-f_j ‖<ε\)。而在RKHS中,條件要求更嚴格,要求所有的Cauchy列依點態收斂,即\(∀x∈\mathcal{X}\),式子\(|f_i (x)-f_j (x)|<ε\)都成立。

[1] Dino Sejdinovic, Arthur Gretton. What is an RKHS?[EB/OL]. http://www.gatsby.ucl.ac.uk/~gretton/coursefiles/lecture1_whatIsRKHS.pdf,2012-02-14.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM