基於MMSE的預測


本文的目的是預測隨機變量的輸出值。

既然有預測值,那么我們就需要一個判斷基准(criterion)用於判斷該預測值與該隨機變量的實際輸出之間的差值,這里采用的判斷基准就是MSE(mean-square-error)。MSE越小,則表明預測值越接近隨機變量的實際輸出值,因此在求一個隨機變量的預測值時,該預測值與隨機變量之間應該有MMSE(minimum mean-square-error)。

$\displaystyle{ MSE = E[(X-\hat{x})^2] = \frac{1}{N}\sum_{n=1}^{N}(x_n-\hat{x})^2}$

其中$X$就是隨機變量,$x_n$是隨機變量的實驗輸出值,$\hat{x}$是該隨機變量的預測值。

 

預測一個連續隨機變量

我們知道一個連續隨機變量$Y$的PDF為$f_Y(y)$,現在我們希望預測該隨機變量的值,假設預測值為$\hat{y}$,那么有MSE如下

$MSE = \displaystyle{E[(Y-\hat{y})^2] = \int(y-\hat{y})^2f_Y(y)dy}$

我們需要求得一個值$\hat{y}$,使得這個式子得到一個最小值MMSE。因此把$\hat{y}$當作自變量,並對該式子求導,當導數為0時能得到一個極值

$\displaystyle{-2\int(y-\hat{y})f_Y(y)dy =0}$

對上述式子進行整理得到

$\displaystyle{ \int\hat{y}f_Y(y)dy = \int yf_Y(y)dy } = E[Y]$

因此有

$\color{red}{\hat{y} = E[Y]}$

此外,MSE的二階導為

$\displaystyle{2\int f_Y(y)dy = 2}$

即一階導數的斜率固定為2,這表明MSE曲線只有一個極值,並且是一個極小值(MSE曲線開口向上)。因此對隨機變量進行MMSE預測得到的預測值為$\hat{y} = E[Y]$。而實際的MMSE就是方差$MMSE = \sigma_Y^2$。

 

 

預測條件連續隨機變量

兩個隨機變量

對於具有兩個隨機變量的聯合概率分布$f_{X,Y}(x,y)$,在已知$X=x$的情況下,$Y$的PDF為$f_{Y|X}(y|x)$。

 

Gaussian3D_slice

通過上圖能方便理解,當固定某個隨機變量$X=x_0$時,通過聯合PDF能知道隨機變量$Y$的概率分布$f_{X,Y}(x_0,y)$,不過此時不一定有$\displaystyle{\int_{-\infty}^{\infty}f_{X,Y}(x_0,y)dy=1}$,因此需要對其進行標准化后才能得到$f_{Y|X}(y|x=x_0)$。

通過選定不同的$x$,會有不同的$f_{Y|X}(y|x)$,因此期望值$E[Y|X=x]$也會有所不同。結合上一小節可以知道,當$X=x$時,選擇$E[Y|X=x]$作為預測值可以使得MSE最小。

$\displaystyle{ E[\{Y-\hat{y}(x)\}^2|X=x]=\int\{y-\hat{y}(x)\}^2f_{Y|X}(y|x)dy }$

其中$\hat{y}(x)$是當$X=x$時,隨機變量Y的預測值

$\color{red}{\hat{y}(x) = E[Y|X=x] = \displaystyle{\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy}}$

這就是當$X=x$時,對隨機變量$Y$的進行MMSE預測所得到的預測結果。

同樣,MMSE的值就是$f_{Y|X}(y|x)$的方差$\sigma_{Y|X}^2$,即

$MMSE =\sigma_{Y|X}^2$

 

多個隨機變量

推廣到多個隨機變量聯合分布有:當$X_1=x_1,X_2=x_2,\cdot\cdot\cdot,X_L=x_L$時,隨機變量$Y$的PDF為

$f_{Y|X_1,X_2,\cdot\cdot\cdot,X_L}(y|x_1,x_2,\cdot\cdot\cdot,x_L)$

此時對隨機變量$Y$進行MMSE預測,預測值為

$\hat{y}(x_1,x_2,\cdot\cdot\cdot,x_L) = E[Y|X_1=x_1,X_2=x_2,\cdot\cdot\cdot,X_L=x_L]$

為了方便,我們把$X_1=x_1,X_2=x_2,\cdot,\cdot,\cdot,X_L=x_L$記為具有$L$個元素的向量$\textbf{X}$,因此上面的式子可以寫為

$\displaystyle{ \hat{y}(\textbf{x}) = \int_{-\infty}^{\infty}yf_{Y|\textbf{X}}(y|\textbf{X}=\textbf{x})dy = E[Y|\textbf{X} = \textbf{x}] }$

 

 

Estimator(預測器)

在前一小節中,我們知道當有前置條件$X=x$時,隨機變量$Y$的預測值為$\hat{y}(x) = E[Y|X=x]$,該預測值是與$x$相關的。這里我們可以把$\hat{y}(x)$當作是一個函數,其輸入值為$x$。有了輸入值$x$,我們可以去預測輸出值$\hat{y}(x)$,因此我們也能將$\hat{y}()$當成一個預測器。

 

輸入值為隨機變量

前面的小節討論的都是當$X=x$時的預測值,預測器的輸入為一個固定值,因此預測器輸出的也是一個值$\hat{y}(x)$。如果我們用隨機變量$X$作為輸入,那么有

$\hat{Y} = \hat{y}(X) = E[Y|X]$

輸出值$\hat{Y}$也是一個隨機變量,該隨機變量的每一個可能的輸出值都從隨機變量$X$的可能輸出值映射得來,因此可以認為他們共享同一個PDF$f_X(x)$。

EstimatorRandom

由於預測值$\hat{Y}$是一個隨機變量,因此如果按照前面的方法計算,MMSE也會是一個隨機變量,所以此時MMSE的值應該按照如下方式計算

$\color{red}{\begin{align*}E_{Y,X}\Big( [Y-\hat{y}(X)]^2 \Big)
&=E_X\bigg(E_{Y|X}\Big( [Y-\hat{y}(X)]^2|X \Big) \bigg)\\
&=\int_{-\infty}^{\infty}E_{Y|X}\Big( [Y-\hat{y}(x)]^2|X=x \Big)f_X(x)dx
\end{align*}}$

 

正交性

在學習概率模型的向量空間時說過,如果兩個向量的內積為0,則認為它們正交。實際上$Y-\hat{y}(X)$與任意關於隨機變量$X$的函數$h(X)$是正交的

$\color{red}{E_{Y,X}[\{Y-\hat{y}(X)\}h(X)] = 0}$

證明

$\begin{align*}
E_{Y,X}[\hat{y}(X)h(X)] &= E_{X,Y}[E_{Y|X}[Y|X]h(X)]\\
&=E_{X}[E_{Y|X}[Y|X]h(X)]\\
&=E_{X}[E_{Y|X}[Yh(X)|X]]\\
&=E_{Y,X}[Yh(X)] \qquad \href{http://www.cnblogs.com/TaigaCon/p/8887931.html#DualVarBayesRule}{Bayes'\ Rule}\end{align*}$

因此

$\begin{align*}&\quad\ E_{Y,X}[\hat{y}(X)h(X)]-E_{Y,X}[Yh(X)]\\ &= E_{Y,X}[\{Y-\hat{y}(X)\}h(X)]\\ &= 0\end{align*}$

 

 

線性預測

我們前面討論的預測器$\hat{y}(X)$是基於隨機變量$X$來預測隨機變量$Y$,理想的預測器是$\hat{y}(x) = E[Y|X=x] = \displaystyle{\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy}$。這個預測器固然是最佳的MMSE預測器,不過它依賴於條件PDF $f_{Y|X}(y|x)$,而這個條件PDF通常比較難以獲取,因此我們在這里提出一個簡單實用的預測器Linear MMSE Estimator。

LMMSE預測器假設條件(隨機變量$X$)與結果(隨機變量$Y$)之間具有線性關系,即

$\hat{Y}_{\ell} = \hat{y}_{\ell}(X) = aX+b$

 

求系數$a,b$的值

預測是基於MMSE,因此有

$MSE = E_{Y,X}[(Y-\hat{Y}_{\ell})^2] = E_{Y,X}[\{Y-(aX+b)\}^2]$

其中系數$a,b$是所要求的未知值,我們需要選取合適的$a$以及$b$以使得MSE最小。首先求系數$b$,對MSE求變量$b$的導數,

$\begin{align*}\frac{dMSE}{db} &= \frac{dE_{Y,X}[\{Y-(aX+b)\}^2]}{db}\\
&=\frac{dE_{Y,X}[Y^2+a^2X^2+b^2-2aYX-2Yb+2aXb]}{db}\\
&=2E_{Y,X}[Y-(aX+b)]
\end{align*}$

對於變量$b$,MSE是一個開口向上的二次函數,當該二次函數的一階導為0時有最小值,即有MMSE

$\begin{align*}
E_{Y,X}[Y-(aX+b)] &= E_{Y,X}[Y]-E_{Y,X}[aX]-b\\
&=E[Y]-aE[X]-b\\
&=\mu_y-a\mu_x-b\\
&= 0
\end{align*}$

此時$b$的值為

$\color{red}{b = \mu_y-a\mu_x}$

 

接下來求系數$a$的值。同樣是從MSE的式子開始,

$\begin{align*}
MSE &= E_{Y,X}[(Y-\hat{Y}_{\ell})^2]\\
&= E_{Y,X}[\{(Y-\mu_y)-(\hat{Y}-\mu_y)\}^2]\\
&= E_{Y,X}[\{(Y-\mu_y)-(aX+b-\mu_y)\}^2]\\
&= E_{Y,X}[\{(Y-\mu_y)-(aX-a\mu_x+\mu_y-\mu_y)\}^2]\\
&= E_{Y,X}[\{(Y-\mu_y)-a(X-\mu_x)\}^2]\\
&= E_{Y,X}[(\tilde{Y}-a\tilde{X})^2]\qquad letting \left\{\begin{matrix}\tilde{Y}=Y-\mu_y\\ \tilde{X}=X-\mu_x\end{matrix}\right.
\end{align*}$

然后對MSE進行變量為$a$的求導,

$\begin{align*}
\frac{dMSE}{da} &= \frac{dE_{Y,X}[(\tilde{Y}-a\tilde{X})^2]}{da}\\
&= \frac{dE_{Y,X}[\tilde{Y}^2+a^2\tilde{X}^2-2a\tilde{Y}\tilde{X}]}{da}\\
&= E_{Y,X}[2a\tilde{X}^2-2\tilde{Y}\tilde{X}]\\
&= 2aE_{Y,X}[\tilde{X}^2]-2E_{Y,X}[\tilde{Y}\tilde{X}]\\
&= 2a\sigma_X^2-2\sigma_{Y,X}\\
&= 2a\sigma_X^2-2\rho\sigma_X\sigma_Y\qquad \href{http://www.cnblogs.com/TaigaCon/p/8887931.html#UsefulVectorSpace}{\sigma_{Y,X}=\rho\sigma_X\sigma_Y}
\end{align*}$

當導數為0時有最小的MSE,

$2a\sigma_X^2-2\rho\sigma_X\sigma_Y=0$

那么此時的系數$a$為

$\color{red}{a = \rho\frac{\sigma_Y}{\sigma_X}}$

因此LMMSE預測器為

$\color{red}{\hat{Y}_{\ell} = aX+b = \rho\frac{\sigma_Y}{\sigma_X}(X-\mu_X)+\mu_Y}$

 

線性預測器的向量空間

回顧前面對MSE進行變量為$a$的求導,把求導的式子進行整理

$\begin{align*}
\frac{dMSE}{da} &= \frac{dE_{Y,X}[(\tilde{Y}-a\tilde{X})^2]}{da}\\
&= \frac{dE_{Y,X}[\tilde{Y}^2+a^2\tilde{X}^2-2a\tilde{Y}\tilde{X}]}{da}\\
&= E_{Y,X}[2a\tilde{X}^2-2\tilde{Y}\tilde{X}]\\
&= 2E_{Y,X}[(a\tilde{X}-\tilde{Y})\tilde{X}]\\
&= -2E_{Y,X}[(\tilde{Y}-a\tilde{X})\tilde{X}]
\end{align*}$

由前一小節已知系數$a$能使得該導數式子的結果為0,

$E[(\tilde{Y}-a\tilde{X})\tilde{X}] = 0$

在此引入向量空間,該向量空間中的向量有以下幾個特征:

  1. 向量$\tilde{Y}-a\tilde{X}$與向量$\tilde{X}$正交
  2. 向量$\tilde{Y}-a\tilde{X}$與向量$a\tilde{X}$之和為$\tilde{Y}$
  3. 向量$\tilde{Y}-a\tilde{X} = Y-\mu_Y-a(X-\mu_X) = Y-\hat{Y}_{\ell}$
  4. 向量$\tilde{Y}$與向量$\tilde{X}$之間的夾角為$\theta$,$\rho$是隨機變量$X$與$Y$的相關系數,有$\rho = cos(\theta)$

image

 

LMMSE預測器的MMSE為

$\begin{align*}
MMSE &= E_{Y,X}[(Y-\hat{Y}_{\ell})^2]\\
&= E_{Y,X}[(\tilde{Y}-a\tilde{X})^2]\\
&= E[\tilde{Y}^2]-E[(a\tilde{X})^2]\qquad (\tilde{Y}-a\tilde{X})\ orthogonal\ to\ (a\tilde{X}) \\
&= E[\tilde{Y}^2]-\rho^2E[\tilde{Y}^2]\\
&= \sigma_Y^2(1-\rho^2)
\end{align*}$

這個MMSE的結果表明

  1. 如果隨機變量$X$與$Y$之間真的具有線性關系的話,即$\rho=1$,那么就能得到$MMSE=0$
  2. 如果隨機變量$X$與$Y$相互獨立的話,即$\rho=0$,那么$MMSE = \sigma_Y^2$
  3. 隨機變量$X$與$Y$之間的相關性越強,即$\rho$越大的話,就能得到越小的MMSE,而MMSE越小,則可以認為預測的數值越准確

 

 

這種線性預測器也能推廣到多隨機變量,即預測器假設一個隨機變量$Y$與多個隨機變量$\textbf{X}=[X_1, X_2,\cdot\cdot\cdot,X_L]$具有線性關系。有興趣可以自行查閱下面Reference的鏈接。

 

Reference

Alan V. Oppenheim: Signals, Systems and Inference, Chapter 8: Estimation with Minimum Mean Square Error


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM