高維空間中的高斯分布和隨機投影
(一)在高維球體表面產生均勻分布點的方法
我們來考慮一個采樣問題,就是怎樣在高維單位球體的表面上均勻的采樣。首先,考慮二維的情況,就是在球形的周長上采樣。我們考慮如下方法:第一,先在一個包含該圓形的外接正方形內均勻的采樣;第二,將采樣到的點投影到圓形上。具體地說就是,第一,先獨立均勻的從區間$[-1,1]$(我們假設圓形跟正方形的中心點都在原點)內產生兩個值組成一個二維的點$(x_1,x_2)$;第二,將該二維點投影到圓形上。例如,如下圖所示,如果我們產生點是圖中的A,B兩點,那么投影到圓形上就是C點,如果產生的是點D,那么投影到圓形上就是E點。但是,用這樣的方法得到點在圓形上並不是均勻分布的,比如產生C點的概率將大於產生E點概率,因為可以投影到C點對應的那條直線比E點對應的那條直線要長。解決的辦法是去掉圓形外面的點,也就是如果我們首先產生的點在圓形外的話(比如點B),那么我們就丟棄該點,重新在產生,這樣的話產生的點在圓形上是均勻分布的。
那么,我們能否將此方法擴展到高維的情況下呢?答案是不行的。因為在高維的情況下球與正方體的體積比將非常非常小,幾乎接近於零。也就是我們在正方體內產生的點幾乎不可能落到球體內部,那么也就無法產生有效的點。那么,在高維的球體上,我們應該怎樣才能產生一個均勻分布與球體表面的點呢?答案是利用高斯分布。即將上述第一步改成:以均值為零方差為1的高斯分布獨立地產生$d$個值,形成一個$d$維的點$x=(x_1,x_2,\cdots,x_d)$;然后第二步:將點$x$歸一化$\tilde{x}=\frac{x}{\|x\|}$。用這種方法產生點必定均勻分布在高維球體表面。原因如下,$d$個獨立的高斯分布的密度函數為:
$$p(x_1,x_2,\cdots,x_d)=\frac{1}{(2\pi)^\frac{d}{2}}e^{-\frac{x_1^2+x_2^2+\cdots+x_d^2}{2}}=\frac{1}{(2\pi)^\frac{d}{2}}e^{-\frac{\|x\|^2}{2}}$$
那么$p(\tilde{x})=\frac{1}{(2\pi)^\frac{d}{2}}e^{-\frac{1}{2}}$,為常數,說明產生的每個點的概率都一樣,即均勻分布。這個結論在證明隨機投影定理時會用到。
(二)高維空間下的高斯分布性質
高斯分布是概率統計里面最常見也是最有用的分布之一,本文主要關注高斯分布在高維情況下的一些特性。首先,對於低維高斯分布來說,其概率質量主要集中在均值附近。那么在高維情況下,這樣的情況是否還是真的呢?一個均值為零,協方差為$\sigma^2\mathbf{I}$的$d$為高斯分布的密度函數為:
\begin{equation}p(x)=\frac{1}{(2\pi)^{d/2}\sigma^d}exp(-\frac{\|x\|^2}{2\sigma^2})\end{equation}
當$\sigma = 1$時,由於單位球在高維的情況下的體積趨近於零,所以以均值點為原點的單位球所累計的概率質量也接近於零。事實上,只有當這個球的半徑增長到$\sqrt{d}$時,才會有相對比較大的概率質量。更准確的說,在距離原點$\sqrt{d}$附近的環內占據了高斯分布的主要概率質量。
對於一個服從均值為零協方差為$\sigma^2\mathbf{I}$的$d$維的高斯分布的向量$x$來說,可以將其看成每個坐標是獨立地由均值為零方差為$\sigma^2$的一維高斯分布產生。所以$x$到均值點的距離平方期望為:$\mathbb{E}(\|x\|^2)=d\mathbb{E}(x_1^2)=d\sigma^2$。根據大數定理我們可以知道,當$d$很大時,$x$點到均值點的距離平方主要集中在其期望值附近,從這個角度也可以看到服從高維高斯分布的點主要聚集在距離均值點距離為$\sigma\sqrt{d}$附近,這里的$\sigma\sqrt{d}$稱為高斯分布的半徑。以下,我們只分析均值為零協方差為單位陣的高斯分布。
首先,我們來計算在高斯分布中距離原點為$r$的那個“面”對應的概率質量是多少?也就是我們要計算高斯分布在半徑為$r$的$d$維球體表面的概率質量$g(r)$,由於在這個表面所有的點對應的概率密度都一樣(為$\frac{1}{(2\pi)^{d/2}}exp(-r^2/2)$),所以這個概率質量等於相同的概率密度乘以表面積,即$g(r)=Cr^{d-1}e^{-r^2/2}$,其中$C$為固定的常數。令$I=[\sqrt{d-1}-c,\sqrt{d-1}+c]$,其中$c$為正實數,現在我們來證明:高維高斯分布的概率質量主要聚集在區間I內。令$a$表示區間I外的概率質量,$b$表示區間I內的概率質量。
令$f(r)=\mathop{ln}g(r)=(d-1)\mathop{ln}r-\frac{r^2}{2}+\mathop{ln}C$,對$f(r)$求導有:
\begin{equation}f^\prime(r)=\frac{d-1}{r}-r\quad f^{\prime\prime}(r)=-\frac{d-1}{r^2}-1\leq -1\end{equation}
將$f(r)$在$\sqrt{d-1}$處二階泰勒展開:
\begin{equation*}f(r)=f(\sqrt{d-1})+f^\prime(\sqrt{d-1})(r-\sqrt{d-1})+\frac{1}{2}f^{\prime\prime}(\zeta)(r-\sqrt{d-1})^2\end{equation*}
其中$\zeta$介於$\sqrt{d-1}$與$r$之間。由於$f^\prime(\sqrt{d-1})=0$,所以:
\begin{equation}f(r)=f(\sqrt{d-1})+\frac{1}{2}f^{\prime\prime}(\zeta)(r-\sqrt{d-1})^2\leq f(\sqrt{d-1})-\frac{1}{2}(r-\sqrt{d-1})^2\end{equation}
所以$g(r)=e^f(r)\leq g(\sqrt{d-1})exp(-\frac{1}{2}(r-\sqrt{d-1})^2)$。這樣我們就可以計算$a$的上界:
\begin{align*}a&=\int_{r\in I}g(r)dr\\&\leq \int_{r=0}^{\sqrt{d-1}-c}g(\sqrt{d-1})exp(-(r-\sqrt{d-1})^2/2)dr+\int_{r=\sqrt{d-1}+c}^\infty g(\sqrt{d-1})exp(-(r-\sqrt{d-1})^2/2)dr\\&\leq2g(\sqrt{d-1})\int_{r=\sqrt{d-1}+c}^\infty exp(-(r-\sqrt{d-1})^2/2)dr\\&=2g(\sqrt{d-1})\int_{y=c}^\infty exp(-y^2/2)dy\\&\leq 2g(\sqrt{d-1})\int_{y=c}^\infty\frac{y}{c}exp(-y^2/2)dy\\&=\frac{2}{c}g(\sqrt{d-1})exp(-c^2/2)\end{align*}
接下去,計算$b$的下界。在子區間$[\sqrt{d-1},\sqrt{d-1}+\frac{c}{2}]$內,可以計算$f^{\prime\prime}(r)\geq -2$,所以:
$$f(r)\geq f(\sqrt{d-1})-(r-\sqrt{d-1})^2\geq f(\sqrt{d-1})-\frac{c^2}{4}$$
因此,$g(r)\geq exp(f(\sqrt{d-1}))exp(-\frac{c^2}{4})=g(\sqrt{d-1})exp(\frac{c^2}{4})$,故:
$$b\leq \int_{\sqrt{d-1}}^{\sqrt{d-1}+\frac{c}{2}}g(r)dr\leq \frac{c}{2}g(\sqrt{d-1})exp(-\frac{c^2}{4})$$
利用$a$的上界以及$b$的下界,可以得到:
\begin{equation}\frac{a}{b}\leq \frac{\frac{2}{c}g(\sqrt{d-1})e^{-c^2/2}}{\frac{c}{2}g(\sqrt{d-1})exp(-\frac{c^2}{4})}\leq \frac{4}{c^2}exp(-\frac{c^2}{4})\end{equation}
所以$\frac{a}{a+b}=\frac{1}{b/a+1}\leq\frac{1}{1+\frac{c^2}{4}exp(\frac{c^2}{4})}\leq \frac{4}{c^2}exp(-\frac{c^2}{4})$。當$c$取較大時,$\frac{4}{c^2}exp(-\frac{c^2}{4})$很小,也就是說高斯分布的概率質量在區間I外占很小很小的比例。根據上面分析我們可以得到如下引理:
引理一 在均值為零協方差為單位陣的$d$維高斯分布中,區間I以外所占的概率質量不超過$\frac{4}{c^2}exp(-\frac{c^2}{4})$。
(三)隨機投影定理
再講隨機投影定理之前,我們先來介紹一下如何利用隨機投影來降維。對於一個高維的數據$x,y$(假設其維度為$n$),我們可以首先產生一個隨機矩陣$\mathbf{R}\in\mathbb{R}^{n\times k}$,其中$k<n$,然后將矩陣$\mathbf{R}$左乘這些數據得到$\bar{x}=\mathbf{R}^T x,\bar{y}=\mathbf{R}^T$,其中$\bar{x},\bar{y}\in \mathbf{R}^k$,這樣我們就得到一個維度更低的數據。而隨機投影定理講的是,當$k$滿足何種條件下,我們能保持$x,y$的距離跟被投影后的距離的比接近與維度的比。(關於隨機投影的方法,《The Random Projection Method》這本參考文獻可能會全面點)。那么,為什么我們希望他們之間的距離能夠得到保持呢?這是因為很多機器學習的算法都是利用點跟點之間的距離信息來執行的,比如K-mean算法,如果降維后的數據之間的距離已經不再保持跟原來數據一致性的話,那么降維后的算法的准確度會大打折扣,這樣降維也就沒什么意義了。
如果我們將一個$n$維的單位向量投影到$k$維的子空間中去的話,那么我們會希望投影后的距離平方為$\frac{k}{n}$。我們來證明下面這個定理:
定理一 令$v$為$n$維空間中固定的單位向量,$W$為$k$維的隨機子空間,$w$為將$v$投影到$W$后的向量,那么對於任意$0\leq\epsilon\leq1$,有$\mathbb{P}(|\|w\|^2-\frac{k}{d}|\geq\epsilon\frac{k}{d})\leq 2e^{-\frac{k\epsilon^2}{4}}$。
證明:如果我們直接從定理那個角度去證明的話,那么這個證明將比較困難(因為我們必須通過選$k$個基去刻畫這個隨機子空間)。換個角度去想這個問題,如果我們固定住子空間,然后隨機的選一個單位向量,然后將這個向量投影到子空間中去,得到投影后向量的分布是否是一樣的?令$W$是隨機子空間,$v$為固定的向量,那么投影后的向量為$w=W^Tv$,另外,令$U$為一個固定的子空間,$z$為隨機選的一個向量,那么投影后的向量為$\tilde{z}=U^Tz$。現在我們來證明對於任意的一個$w$,都存在一個$\tilde{z}$與之對應。首先,對於任意產生的一個$W$,都對應着一個變換矩陣$D$使得$U=DW$,所以得$\tilde{z}=W^TD^Tz$,而$z$是隨機選的,所以我們總可以選到一個$z$使得$v=D^Tz$。所以接下去我們都固定住子空間,並且這個子空間為對應的前$k$個基(這個投影就相當與把第$k$個坐標后面的元素都丟掉),然后通過隨機選單位向量來證明。
先大概說一下證明的思路:要證$\mathbb{P}(|\|w\|^2-\frac{k}{n}|\geq\epsilon\frac{k}{n})\leq 4e^{-\frac{k\epsilon^2}{64}}$,即證
$$\mathbb{P}(\|\tilde{z}\|^2\leq(1-\epsilon)\frac{k}{n} \cup \|\tilde{z}\|^2\geq(1+\epsilon)\frac{k}{n})\leq 4e^{-\frac{k\epsilon^2}{64}}$$
要證明上式,我們分別證明概率中兩個不等式成立的上界,然后在使用聯合界得到最終的上界。由於這兩個不等式的證明過程相似,接下去我們盡針對其中一個不等式進行證明,另外一種情況類似。
我們要證明的是概率$\mathbb{P}[\|\tilde{z}\|^2\leq\beta\frac{k}{n}]$,其中$\beta=1-\epsilon$。另外,我們在前面部分說過隨機(如果沒有特別指出,這里的隨機都是指均勻隨機)選擇一個$n$維單位向量(即在單位球表面隨機選點)可以等價於獨立隨機的選擇$n$個服從高斯分布的變量(這些高斯分布的均值為零,方差為1),然后在對該向量歸一化。即假設產生的高斯變量為$x=(x_1,\cdots,x_n)$,則單位隨機變量$z=\frac{x}{\|x\|}$,那么投影后的變量$\tilde{z}=(\frac{x_1}{\|x\|},\cdots,\frac{x_k}{\|x\|})$,故:
\begin{align}\mathbb{P}[\|\tilde{z}\|^2<\beta\frac{k}{n}]&=\mathbb{P}[\|\tilde{z}\|^2\leq\beta\frac{k}{n}\|z\|^2]\nonumber\\&=\mathbb{P}[x_1^2+x_2^2+\cdots+x_k^2<\beta\frac{k}{d}(x_1^2+x_2^2+\cdots+x_n^2)]\nonumber\\&=\mathbb{P}[\beta k(x_1^2+\cdots+x_n^2)-n(x_1^2+\cdots+x_k^2)>0]\nonumber\\&=\mathbb{P}[exp(t(\beta k(x_1^2+\cdots+x_n^2)-n(x_1^2+\cdots+x_k^2)))>1]\end{align}
上式對任何$t$都成立。然后利用Markov不等式(形式類似於$\mathbb{P}[X\geq\delta]\leq\frac{\mathbb{E}[X]}{\delta^2}$)得:
\begin{align}\mathbb{P}[\|\tilde{z}\|^2<\beta\frac{k}{n}]&\leq\mathbb{E}[exp(t(\beta k(x_1^2+\cdots+x_n^2)-n(x_1^2+\cdots+x_k^2)))]\nonumber\\&=\mathbb{E}[exp(t(\beta k(x_{k+1}^2+\cdots+x_n^2)+(\beta k-n)(x_1^2+\cdots+x_k^2)))]\nonumber\\&=\mathbb{E}[exp(t\beta k(x_{k+1}^2+\cdots+x_n^2))]\mathbb{E}[exp(t(\beta k-n)(x_1^2+\cdots+x_k^2))]\nonumber\\&=[\mathbb{E}[t\beta kx_1^2]]^{n-k}[\mathbb{E}[t(\beta k-n)x_1^2]]^k\label{equ:P}\end{align}
現在我們來求$\mathbb{E}[tx^2]$,其中$x$服從均值零方差為1的高斯分布:
\begin{align}\mathbb{E}[exp(tx^2)]&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}exp(tx^2)exp(-\frac{x^2}{2})dx\nonumber\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}exp(-\frac{1}{2}(1-2t)x^2)dx\nonumber\\&=\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}\frac{1}{\sqrt{1-2t}}\nonumber\\&=\frac{1}{\sqrt{1-2t}}\label{equ:int}\end{align}
將式子\ref{equ:int}代入式子\ref{equ:P}得:
\begin{align}\mathbb{P}[\|\tilde{z}\|^2&\leq(\frac{1}{\sqrt{1-2t\beta k}})^{n-k}(\frac{1}{\sqrt{1-2t(\beta k -n)}})^k\nonumber\\&\triangleq g(t)\end{align}
由於上式對任意的$t$都成立,所以我們可以通過求$g(t)$的最小值來得到一個最緊的上界。這里我就不寫出求$g(t)$最小值的計算過程了,直接給出最小值點$t_0=frac{\beta-1}{2\beta(\beta k -n)}$。將$t_0$代入可得如下結論:
\begin{align*}\mathbb{P}[\|\tilde{z}\|^2&\leq g(t_0)\\&=(\frac{1}{1-2\beta k\frac{\beta-1}{2\beta(\beta k -n)}})^{\frac{n-k}{2}}(\frac{1}{1-2(\beta k-n)\frac{\beta-1}{\beta(\beta k -n)}})^{\frac{k}{2}}\\&=\beta^{\frac{k}{2}}(\frac{\beta k-n}{k-n})^{\frac{n-k}{2}}\\&=\beta^\frac{k}{2}(1+\frac{k-\beta k}{n-k})^\frac{n-k}{2}\\&\leq\beta^\frac{k}{2}exp(\frac{k-\beta k}{2})=exp(\frac{k}{2}\mathop{ln}(\beta)+\frac{k}{2}(1-\beta))\\&=exp(\frac{k}{2}(\mathop{ln}(1-\epsilon)+\epsilon))\leq exp(-\frac{k}{4}\epsilon^2)\end{align*}
其中最后一個不等式是因為$\mathop{ln}(1-\epsilon)\leq-\epsilon-\frac{\epsilon^2}{2}$對任意$0<\epsilon<1$成立。
對於另外一種情況,我們也可以用同樣的方法證得:$\mathbb{P}[\|\tilde{z}\|^2\geq(1+\epsilon)\frac{k}{n}]\leq exp(-\frac{k\epsilon^2}{4})$。最后,由聯合界可使定理得證。
注:書本中關於這個定理的證明有錯,這里的證明是根據作者的課堂筆記(http://www.cs.cornell.edu/courses/cs4850/2010sp/Scribe%20Notes%5CLecture05.pdf)整理而得的。
利用上述定理,我們就可以證明隨機投影中重要的引理,稱為Johnson-Lindenstrauss Lemma.
引理二. Johnson-Lindenstrauss Lemma
對任意的$0<\epsilon<1$以及任意的整數$m$,若$k\geq\frac{4\mathop{ln}(m)}{\epsilon^2}$,則對任意的包含$m$個維度為$n$的點的集合P,對P中所有的點進行隨機投影到$k$維子空間,則任意兩點$u,v$與投影后的點$f(u),f(v)$之間的距離滿足如下不等式成立的概率至少為$1-\frac{1}{m^2}$:
\begin{equation}(1-\epsilon)\frac{k}{n}|u-v|^2\leq|f(u)-f(v)|^2\leq(1+\epsilon)\frac{k}{n}|u-v|^2\label{equ:JL1}\end{equation}
在證明這個引理之前,我們先來說說這個定理的意義。定理說的是,對於任意一個樣本大小為$m$的集合,如果我們通過隨機投影將其維度降到一個合適的范圍內,那么我們將以較高的概率保證投影后的數據點之間的距離信息變化不大。這樣我們在做K-mean之類的算法時,就可以先將高維度的數據利用隨機投影進行降維處理,然后在執行算法。
證明:令$z=u-v$為投影前空間上的點,$\tilde{z}=f(u)-f(v)$為投影后子空間上的點。則根據定理一可知,投影后向量的長度應該以很高的概率跟原向量長度相差在$\epsilon$內,用數學表示即:
\begin{equation}\mathbb{P}[|\|\tilde{z}\|^2-\frac{k}{n}\|z\|^2|\geq \epsilon \frac{k}{n}\|z\|^2]\leq 2exp(-\frac{k\epsilon^2}{4})\label{equ:JL2}\end{equation}
所以,如果$k\geq\frac{4\mathop{ln}(m)}{\epsilon^2}$,則$2exp(-\frac{k\epsilon^2}{4})\leq\frac{1}{m^4}$。也就是說對於每一對點,式子\ref{equ:JL2}左邊的上界小於$\frac{1}{m^4}$,那么對於集合P中的所有點對(總共約為$m^2$對)采用聯合界可得,所有點對中至少有一對滿足式子$|\|\tilde{z}\|^2-\frac{k}{n}\|z\|^2|\geq \epsilon \frac{k}{n}\|z\|^2$的概率小於$\frac{1}{m^2}$。換句話說,所有點都不滿足式子$|\|\tilde{z}\|^2-\frac{k}{n}\|z\|^2|\geq \epsilon \frac{k}{n}\|z\|^2$的概率將大於$1-\frac{1}{m^2}$。這就證明了式子\ref{equ:JL1}。