機器學習數學基礎總結

本文轉載自查看原文 2018-11-04 21:40 3322 機器學習/ 深度學習

線性代數
- 一、基本知識
概率論與隨機過程
數值計算

線性代數

一、基本知識

本文中所有的向量都是列向量的形式：

\[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}$$ 本書中所有的矩 $\mathbf X\in \mathbb R^{m\times n}$ 都表示為： $$\mathbf X = \begin{bmatrix} x_{1,1}&x_{1,2}&\cdots&x_{1,n}\\ x_{2,1}&x_{2,2}&\cdots&x_{2,n}\\ \vdots&\vdots&\ddots&\vdots\\ x_{m,1}&x_{m,2}&\cdots&x_{m,n}\\ \end{bmatrix}$$ 簡寫為 $(x_{i,j})_{m\times n}$ 或 $[x_{i,j}]_{m\times n}$ 。 2. 矩陣的`F`范數：設矩 $\mathbf A=(a_{i,j})_{m\times n}$ ，則其`F`范數為 $||\mathbf A||_F=\sqrt{\sum_{i,j}a_{i,j}^{2}}$ 。它是向量 $L_2$ 范數的推廣。 3. 矩陣的跡：設矩 $\mathbf A=(a_{i,j})_{m\times n}$ ， $ \mathbf A$ 的跡為 $tr(\mathbf A)=\sum_{i}a_{i,i}$ 。跡的性質有： - $\mathbf A$ 的`F` 范數等 $\mathbf A\mathbf A^T$ 的跡的平方根 $||\mathbf A||_F=\sqrt{tr(\mathbf A \mathbf A^{T})}$ 。 - $\mathbf A$ 的跡等 $\mathbf A^T$ 的跡 $tr(\mathbf A)=tr(\mathbf A^{T})$ 。 - 交換律：假設 $\mathbf A\in \mathbb R^{m\times n},\mathbf B\in \mathbb R^{n\times m}$ ，則有 $tr(\mathbf A\mathbf B)=tr(\mathbf B\mathbf A)$ 。 - 結合律 $tr(\mathbf A\mathbf B\mathbf C)=tr(\mathbf C\mathbf A\mathbf B)=tr(\mathbf B\mathbf C\mathbf A)$ 。 ## 二、向量操作 1. 一組向 $\mathbf{\vec v}_1,\mathbf{\vec v}_2,\cdots,\mathbf{\vec v}_n$ 是線性相關的：指存在一組不全為零的實 $a_1,a_2,\cdots,a_n$ ，使得 $\sum_{i=1}^{n}a_i\mathbf{\vec v}_i=\mathbf{\vec 0}$ 。一組向 $\mathbf{\vec v}_1,\mathbf{\vec v}_2,\cdots,\mathbf{\vec v}_n$ 是線性無關的，當且僅 $a_i=0,i=1,2,\cdots,n$ 時，才有 $\sum_{i=1}^{n}a_i\mathbf{\vec v}_i=\mathbf{\vec 0}$ 。 2. 一個向量空間所包含的最大線性無關向量的數目，稱作該向量空間的維數。 3. 三維向量的點積 $\mathbf{\vec u}\cdot\mathbf{\vec v} =u _xv_x+u_yv_y+u_zv_z = |\mathbf{\vec u}| | \mathbf{\vec v}| \cos(\mathbf{\vec u},\mathbf{\vec v})$ 。 <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/algebra/dot.png)</center> 4. 三維向量的叉積： $$\mathbf{\vec w}=\mathbf{\vec u}\times \mathbf{\vec v}=\begin{bmatrix}\mathbf{\vec i}& \mathbf{\vec j}&\mathbf{\vec k}\\ u_x&u_y&u_z\\ v_x&v_y&v_z\\ \end{bmatrix}$$ 其 $\mathbf{\vec i}, \mathbf{\vec j},\mathbf{\vec k}$ 分別 $x,y,z$ 軸的單位向量。 $$\mathbf{\vec u}=u_x\mathbf{\vec i}+u_y\mathbf{\vec j}+u_z\mathbf{\vec k},\quad \mathbf{\vec v}=v_x\mathbf{\vec i}+v_y\mathbf{\vec j}+v_z\mathbf{\vec k}$$ - $\mathbf{\vec u} $ 和 $\mathbf{\vec v}$ 的叉積垂直於 $\mathbf{\vec u},\mathbf{\vec v}$ 構成的平面，其方向符合右手規則。 - 叉積的模等於 $\mathbf{\vec u},\mathbf{\vec v}$ 構成的平行四邊形的面積 - $\mathbf{\vec u}\times \mathbf{\vec v}=-\mathbf{\vec v}\times \mathbf{\vec u}$ - $\mathbf{\vec u}\times( \mathbf{\vec v} \times \mathbf{\vec w})=(\mathbf{\vec u}\cdot \mathbf{\vec w})\mathbf{\vec v}-(\mathbf{\vec u}\cdot \mathbf{\vec v})\mathbf{\vec w} $ <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/algebra/cross.png)</center> 5. 三維向量的混合積： $$[\mathbf{\vec u} \;\mathbf{\vec v} \;\mathbf{\vec w}]=(\mathbf{\vec u}\times \mathbf{\vec v})\cdot \mathbf{\vec w}= \mathbf{\vec u}\cdot (\mathbf{\vec v} \times \mathbf{\vec w})\\ =\begin{vmatrix} u_x&u_y&u_z\\ v_x&v_y&v_z\\ w_x&w_y&w_z \end{vmatrix} =\begin{vmatrix} u_x&v_x&w_x\\ u_y&v_y&w_y\\ u_z&v_z&w_z\end{vmatrix} $$ 其物理意義為： $\mathbf{\vec u} ,\mathbf{\vec v} ,\mathbf{\vec w}$ 為三個棱邊所圍成的平行六面體的體積。 $\mathbf{\vec u} ,\mathbf{\vec v} ,\mathbf{\vec w}$ 構成右手系時，該平行六面體的體積為正號。 6. 兩個向量的並矢：給定兩個向 $\mathbf {\vec x}=(x_1,x_2,\cdots,x_n)^{T}, \mathbf {\vec y}= (y_1,y_2,\cdots,y_m)^{T}$ ，則向量的並矢記作： $$\mathbf {\vec x}\mathbf {\vec y} =\begin{bmatrix}x_1y_1&x_1y_2&\cdots&x_1y_m\\ x_2y_1&x_2y_2&\cdots&x_2y_m\\ \vdots&\vdots&\ddots&\vdots\\ x_ny_1&x_ny_2&\cdots&x_ny_m\\ \end{bmatrix}$$ 也記 $\mathbf {\vec x}\otimes\mathbf {\vec y}$ 或 $\mathbf {\vec x} \mathbf {\vec y}^{T}$ 。 ## 三、矩陣運算 1. 給定兩個矩 $\mathbf A=(a_{i,j}) \in \mathbb R^{m\times n},\mathbf B=(b_{i,j}) \in \mathbb R^{m\times n}$ ，定義： - 阿達馬積`Hadamard product`（又稱作逐元素積）： $$\mathbf A \circ \mathbf B =\begin{bmatrix} a_{1,1}b_{1,1}&a_{1,2}b_{1,2}&\cdots&a_{1,n}b_{1,n}\\ a_{2,1}b_{2,1}&a_{2,2}b_{2,2}&\cdots&a_{2,n}b_{2,n}\\ \vdots&\vdots&\ddots&\vdots\\ a_{m,1}b_{m,1}&a_{m,2}b_{m,2}&\cdots&a_{m,n}b_{m,n}\end{bmatrix}\]

- 克羅內積`Kronnecker product`：

\[\mathbf A \otimes \mathbf B =\begin{bmatrix}a_{1,1}\mathbf B&a_{1,2}\mathbf B&\cdots&a_{1,n}\mathbf B\\ a_{2,1}\mathbf B&a_{2,2}\mathbf B&\cdots&a_{2,n}\mathbf B\\ \vdots&\vdots&\ddots&\vdots\\ a_{m,1}\mathbf B&a_{m,2}\mathbf B&\cdots&a_{m,n}\mathbf B \end{bmatrix} \]

$\mathbf {\vec x},\mathbf {\vec a},\mathbf {\vec b},\mathbf {\vec c}$ $n$ 階向量 $\mathbf A,\mathbf B,\mathbf C,\mathbf X$ $n$ 階方陣，則有：

\[\frac{\partial(\mathbf {\vec a}^{T}\mathbf {\vec x}) }{\partial \mathbf {\vec x} }=\frac{\partial(\mathbf {\vec x}^{T}\mathbf {\vec a}) }{\partial \mathbf {\vec x} } =\mathbf {\vec a}$$ $$\frac{\partial(\mathbf {\vec a}^{T}\mathbf X\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf {\vec a}\mathbf {\vec b}^{T}=\mathbf {\vec a}\otimes\mathbf {\vec b}\in \mathbb R^{n\times n}$$ $$\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf {\vec b}\mathbf {\vec a}^{T}=\mathbf {\vec b}\otimes\mathbf {\vec a}\in \mathbb R^{n\times n}$$ $$\frac{\partial(\mathbf {\vec a}^{T}\mathbf X\mathbf {\vec a}) }{\partial \mathbf X }=\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf {\vec a}) }{\partial \mathbf X }=\mathbf {\vec a}\otimes\mathbf {\vec a}$$ $$\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf X\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf X(\mathbf {\vec a}\otimes\mathbf {\vec b}+\mathbf {\vec b}\otimes\mathbf {\vec a})$$ $$\frac{\partial[(\mathbf A\mathbf {\vec x}+\mathbf {\vec a})^{T}\mathbf C(\mathbf B\mathbf {\vec x}+\mathbf {\vec b})]}{\partial \mathbf {\vec x}}=\mathbf A^{T}\mathbf C(\mathbf B\mathbf {\vec x}+\mathbf {\vec b})+\mathbf B^{T}\mathbf C(\mathbf A\mathbf {\vec x}+\mathbf {\vec a})$$ $$\frac{\partial (\mathbf {\vec x}^{T}\mathbf A \mathbf {\vec x})}{\partial \mathbf {\vec x}}=(\mathbf A+\mathbf A^{T})\mathbf {\vec x}$$ $$\frac{\partial[(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})^{T}\mathbf A(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})]}{\partial \mathbf X}=(\mathbf A+\mathbf A^{T})(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})\mathbf {\vec b}^{T} $$ $$\frac{\partial (\mathbf {\vec b}^{T}\mathbf X^{T}\mathbf A \mathbf X\mathbf {\vec c})}{\partial \mathbf X}=\mathbf A^{T}\mathbf X\mathbf {\vec b}\mathbf {\vec c}^{T}+\mathbf A\mathbf X\mathbf {\vec c}\mathbf {\vec b}^{T} \]

如 $f$ 是一元函數，則：
- 其逐元向量函數為 $f(\mathbf{\vec x}) =(f(x_1),f(x_2),\cdots,f(x_n))^{T}$ 。
- 其逐矩陣函數為：

\[f(\mathbf X)=\begin{bmatrix} f(x_{1,1})&f(x_{1,2})&\cdots&f(x_{1,n})\\ f(x_{2,1})&f(x_{2,2})&\cdots&f(x_{2,n})\\ \vdots&\vdots&\ddots&\vdots\\ f(x_{m,1})&f(x_{m,2})&\cdots&f(x_{m,n})\\ \end{bmatrix}\]

- 其逐元導數分別為：

\[f^{\prime}(\mathbf{\vec x}) =(f^{\prime}(x1),f^{\prime}(x2),\cdots,f^{\prime}(x_n))^{T}\\ f^{\prime}(\mathbf X)=\begin{bmatrix} f^{\prime}(x_{1,1})&f^{\prime}(x_{1,2})&\cdots&f^{\prime}(x_{1,n})\\ f^{\prime}(x_{2,1})&f^{\prime}(x_{2,2})&\cdots&f^{\prime}(x_{2,n})\\ \vdots&\vdots&\ddots&\vdots\\ f^{\prime}(x_{m,1})&f^{\prime}(x_{m,2})&\cdots&f^{\prime}(x_{m,n})\\ \end{bmatrix}\]

各種類型的偏導數：
- 標量對標量的偏導數 $\frac{\partial u}{\partial v}$ 。
- 標量對向量 $n$ 維向量）的偏導數 $\frac{\partial u}{\partial \mathbf {\vec v}}=(\frac{\partial u}{\partial v_1},\frac{\partial u}{\partial v_2},\cdots,\frac{\partial u}{\partial v_n})^{T}$ 。
- 標量對矩陣 $m\times n$ 階矩陣)的偏導數：

\[\frac{\partial u}{\partial \mathbf V}=\begin{bmatrix} \frac{\partial u}{\partial V_{1,1}}&\frac{\partial u}{\partial V_{1,2}}&\cdots&\frac{\partial u}{\partial V_{1,n}}\\ \frac{\partial u}{\partial V_{2,1}}&\frac{\partial u}{\partial V_{2,2}}&\cdots&\frac{\partial u}{\partial V_{2,n}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial u}{\partial V_{m,1}}&\frac{\partial u}{\partial V_{m,2}}&\cdots&\frac{\partial u}{\partial V_{m,n}} \end{bmatrix}\]

- 向量 $m$ 維向量）對標量的偏導數 $\frac{\partial \mathbf {\vec u}}{\partial v}=(\frac{\partial u_1}{\partial v},\frac{\partial u_2}{\partial v},\cdots,\frac{\partial u_m}{\partial v})^{T}$ 。
- 向量 $m$ 維向量）對向量 $n$ 維向量)的偏導數（雅可比矩陣，行優先）

\[\frac{\partial \mathbf {\vec u}}{\partial \mathbf {\vec v}}=\begin{bmatrix} \frac{\partial u_1}{\partial v_1}&\frac{\partial u_1}{\partial v_2}&\cdots&\frac{\partial u_1}{\partial v_n}\\ \frac{\partial u_2}{\partial v_1}&\frac{\partial u_2}{\partial v_2}&\cdots&\frac{\partial u_2}{\partial v_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial u_m}{\partial v_1}&\frac{\partial u_m}{\partial v_2}&\cdots&\frac{\partial u_m}{\partial v_n} \end{bmatrix}$$ 如果為列優先，則為上面矩陣的轉置。 - 矩陣 $m\times n$ 階矩陣)對標量的偏導數 $$\frac{\partial \mathbf U}{\partial v}=\begin{bmatrix} \frac{\partial U_{1,1}}{\partial v}&\frac{\partial U_{1,2}}{\partial v}&\cdots&\frac{\partial U_{1,n}}{\partial v}\\ \frac{\partial U_{2,1}}{\partial v}&\frac{\partial U_{2,2}}{\partial v}&\cdots&\frac{\partial U_{2,n}}{\partial v}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial U_{m,1}}{\partial v}&\frac{\partial U_{m,2}}{\partial v}&\cdots&\frac{\partial U_{m,n}}{\partial v} \end{bmatrix}\]

對於矩陣的跡，有下列偏導數成立：

\[\frac{\partial [tr(f(\mathbf X))]}{\partial \mathbf X }=(f^{\prime}(\mathbf X))^{T}$$ $$\frac{\partial [tr(\mathbf A\mathbf X\mathbf B)]}{\partial \mathbf X }=\mathbf A^{T}\mathbf B^{T} $$ $$\frac{\partial [tr(\mathbf A\mathbf X^{T}\mathbf B)]}{\partial \mathbf X }=\mathbf B\mathbf A $$ $$\frac{\partial [tr(\mathbf A\otimes\mathbf X )]}{\partial \mathbf X }=tr(\mathbf A)\mathbf I$$ $$\frac{\partial [tr(\mathbf A\mathbf X \mathbf B\mathbf X)]}{\partial \mathbf X }=\mathbf A^{T}\mathbf X^{T}\mathbf B^{T}+\mathbf B^{T}\mathbf X \mathbf A^{T} $$ $$\frac{\partial [tr(\mathbf X^{T} \mathbf B\mathbf X \mathbf C)]}{\partial \mathbf X }=(\mathbf B^{T}+\mathbf B)\mathbf X \mathbf C \mathbf C^{T} $$ $$\frac{\partial [tr(\mathbf C^{T}\mathbf X^{T} \mathbf B\mathbf X \mathbf C)]}{\partial \mathbf X }=\mathbf B\mathbf X \mathbf C +\mathbf B^{T}\mathbf X \mathbf C^{T} $$ $$\frac{\partial [tr(\mathbf A\mathbf X \mathbf B\mathbf X^{T} \mathbf C)]}{\partial \mathbf X }= \mathbf A^{T}\mathbf C^{T}\mathbf X\mathbf B^{T}+\mathbf C \mathbf A \mathbf X \mathbf B$$ $$\frac{\partial [tr((\mathbf A\mathbf X\mathbf B+\mathbf C)(\mathbf A\mathbf X\mathbf B+\mathbf C))]}{\partial \mathbf X }= 2\mathbf A ^{T}(\mathbf A\mathbf X\mathbf B+\mathbf C)\mathbf B^{T} \]

假 $\mathbf U= f(\mathbf X)$ 是關 $\mathbf X$ 的矩陣值函數 $f:\mathbb R^{m\times n}\rightarrow \mathbb R^{m\times n}$ ）， $g(\mathbf U)$ 是關 $\mathbf U$ 的實值函數 $g:\mathbb R^{m\times n}\rightarrow \mathbb R $ ），則下面鏈式法則成立：

\[\frac{\partial g(\mathbf U)}{\partial \mathbf X}= \left(\frac{\partial g(\mathbf U)}{\partial x_{i,j}}\right)_{m\times n}=\begin{bmatrix} \frac{\partial g(\mathbf U)}{\partial x_{1,1}}&\frac{\partial g(\mathbf U)}{\partial x_{1,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{1,n}}\\ \frac{\partial g(\mathbf U)}{\partial x_{2,1}}&\frac{\partial g(\mathbf U)}{\partial x_{2,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{2,n}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial g(\mathbf U)}{\partial x_{m,1}}&\frac{\partial g(\mathbf U)}{\partial x_{m,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{m,n}}\\ \end{bmatrix}\\ =\left(\sum_{k}\sum_{l}\frac{\partial g(\mathbf U)}{\partial u_{k,l}}\frac{\partial u_{k,l}}{\partial x_{i,j}}\right)_{m\times n}=\left(tr\left[\left(\frac{\partial g(\mathbf U)}{\partial \mathbf U}\right)^{T}\frac{\partial \mathbf U}{\partial x_{i,j}}\right]\right)_{m\times n}\]

概率論與隨機過程

一、概率與分布

1.1 條件概率與獨立事件

條件概率：已 $A$ 事件發生的條件 $B$ 發生的概率，記 $P(B\mid A)$ ，它等於事 $AB$ 的概率相對於事 $A$ 的概率，即：

\[P(B\mid A)=\frac {P(AB)}{P(A)}$$ 其中必須 $P(A) \gt 0$ 2. 條件概率分布的鏈式法則：對 $n$ 個隨機變 $\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n$ ，有： $$P(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n)=P(\mathbf x_1)\prod_{i=2}^{n}P(\mathbf x_i \mid \mathbf x_1,\cdots,\mathbf x_{i-1})\]

兩個隨機變 $\mathbf x,\mathbf y$ 相互獨立的數學描述：

\[\forall x\in \mathcal X,\forall y\in \mathcal Y, P(\mathbf x=x,\mathbf y=y)=P(\mathbf x=x)P(\mathbf y=y)$$ 記作 $\mathbf x \bot \mathbf y$ 4. 兩個隨機變 $\mathbf x,\mathbf y$ 關於隨機變 $\mathbf z$ 條件獨立的數學描述： $$\forall x\in \mathcal X,\forall y\in \mathcal Y,\forall z \in\mathcal Z\\ P(\mathbf x=x,\mathbf y=y\mid \mathbf z=z)=P(\mathbf x=x\mid \mathbf z=z)P(\mathbf y=y\mid \mathbf z=z)$$ 記作 $\mathbf x \bot \mathbf y \mid \mathbf z$ ### 1.2 聯合概率分布 1. 定 ${\mathbf x}$ ${\mathbf y}$ 的聯合分布為： $$P(a,b)=P\{{\mathbf x} \le a, {\mathbf y} \le b\}, - \infty \lt a,b \lt + \infty \]

${\mathbf x}$ 的分布可以從聯合分布中得到：

\[ P_{\mathbf x}(a)=P\{{\mathbf x} \le a\}=P\{{\mathbf x} \le a, {\mathbf y} \le \infty\}=P(a,\infty), - \infty \lt a \lt + \infty $$ 類似的 ${\mathbf y}$ 的分布可以從聯合分布中得到： $$ P_{\mathbf y}(b)=P\{{\mathbf y} \le b\}=P\{{\mathbf x} \le \infty, {\mathbf y} \le b\}=P(\infty,b), - \infty \lt b \lt + \infty \]

${\mathbf x}$ ${\mathbf y}$ 都是離散隨機變量時，定 ${\mathbf x}$ ${\mathbf y}$ 的聯合概率質量函數為 $p(x,y)=P\{{\mathbf x}=x,{\mathbf y}=y\}$
${\mathbf x}$ ${\mathbf y}$ 的概率質量函數分布為：

\[p_{\mathbf x}(x)=\sum_{y \;:\;p(x,y) \gt 0}p(x,y) \\ p_{\mathbf y}(y)=\sum_{x \;:\;p(x,y) \gt 0}p(x,y)\]

${\mathbf x}$ ${\mathbf y}$ 聯合地連續時，即存在函 $p(x,y)$ ，使得對於所有的實數集 $A$ $B$ 滿足：

\[P\{{\mathbf x} \in A, {\mathbf y} \in B\}=\int_B \int_A p(x,y) dx dy$$ 則函 $p(x,y)$ 稱 ${\mathbf x}$ ${\mathbf y}$ 的概率密度函數。 - 聯合分布為 $$P(a,b)=P\{{\mathbf x} \le a, {\mathbf y} \le b\}= \int_{-\infty}^{a} \int_{-\infty}^{b} p(x,y) dx dy\]

- ${\mathbf x}$  ${\mathbf y}$ 的概率密度函數以及分布函數分別為：

\[P_{\mathbf x}(a)=\int_{-\infty}^{a} \int_{-\infty}^{\infty} p(x,y) dx dy =\int_{-\infty}^{a} p_{\mathbf x}(x)dx\\ P_{\mathbf y}(b)=\int_{-\infty}^{\infty} \int_{-\infty}^{b} p(x,y) dx dy=\int_{-\infty}^{b} p_{\mathbf y}(y)dy\\ p_{\mathbf x}(x)=\int_{-\infty}^{\infty} p(x,y) dy\\ p_{\mathbf y}(y)=\int_{-\infty}^{\infty} p(x,y) dx\]

二、期望

期望：（是概率分布的泛函，函數的函數）
- 離散型隨機變 ${\mathbf x}$ 的期望：

\[\mathbb E[{\mathbf x}]=\sum_{i=1}^{\infty}x_ip_i \]

	- 若級數不收斂，則期望不存在
- 連續性隨機變 ${\mathbf x}$ 的期望：

\[\mathbb E[{\mathbf x}]=\int_{-\infty}^{\infty}xp(x)dx \]

	- 若極限不收斂，則期望不存在

期望描述了隨機變量的平均情況，衡量了隨機變 ${\mathbf x}$ 的均值
定理： ${\mathbf y}=g({\mathbf x})$ 均為隨機變量 $g(\cdot)$ 是連續函數
- ${\mathbf x}$ 為離散型隨機變量， ${\mathbf y}$ 的期望存在，則：

\[\mathbb E[{\mathbf y}]=\mathbb E[g({\mathbf x})]=\sum_{i=1}^{\infty}g(x_i)p_i \]

-  ${\mathbf x}$ 為連續型隨機變量， ${\mathbf y}$ 的期望存在，則：

\[\mathbb E[{\mathbf y}]=\mathbb E[g({\mathbf x})]=\int_{-\infty}^{\infty}g(x)p(x)dx$$ 該定理的意義在於：當 $\mathbb E({\mathbf y})$ 時，不必計算 ${\mathbf y}$ 的分布，只需要利 ${\mathbf x}$ 的分布即可。該定理可以推廣至兩個或者兩個以上隨機變量的情況。此時： $$ \mathbb E[Z]=\mathbb E[g({\mathbf x},{\mathbf y})]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)p(x,y)dxdy\]

上述公式也記做：

\[\mathbb E_{\mathbf x\sim P}[g(x)]=\sum_{x}g(x)p(x)\\ \mathbb E_{\mathbf x\sim P}[g(x)]=\int g(x)p(x)dx\\ \mathbb E_{\mathbf x,\mathbf y\sim P}[g(x)]\int g(x,y)p(x,y)dxdy\]

期望性質：
- 常數的期望就是常數本身
- 對常 $C$ 有：

\[\mathbb E[C{\mathbf x}]=C\mathbb E[{\mathbf x}] \]

- 對兩個隨機變 ${\mathbf x},{\mathbf y}$ ，有：

\[\mathbb E[{\mathbf x}+{\mathbf y}]=\mathbb E[{\mathbf x}]+\mathbb E[{\mathbf y}] \]

	- 該結論可以推廣到任意有限個隨機變量之和的情況
- 對兩個相互獨立的隨機變量，有：

\[\mathbb E[{\mathbf x}{\mathbf y}]=\mathbb E[{\mathbf x}]\mathbb E[{\mathbf y}] \]

	- 該結論可以推廣到任意有限個相互獨立的隨機變量之積的情況

三、方差

3.1 方差

對隨機變 ${\mathbf x}$ ， $\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}]$ 存在，則稱它 ${\mathbf x}$ 的方差，記 $Var[{\mathbf x}]$ ${\mathbf x}$ 的標准差為方差的開平方。即：

\[Var[{\mathbf x}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}] \\ \sigma=\sqrt{Var[{\mathbf x}]}\]

- 方差度量了隨機變量 ${\mathbf x}$  與期望值偏離的程度，衡量了 ${\mathbf x}$   取值分散程度的一個尺度。
- 由於絕對值 $|{\mathbf x}-\mathbb E[{\mathbf x}] |$  帶有絕對值，不方便運算，因此采用平方來計算。又因為 $|{\mathbf x}-\mathbb E[{\mathbf x}]|^2$  是一個隨機變量，因此對它取期望，即得 ${\mathbf x}$  與期望值偏離的均值

根據定義可知：

\[Var[{\mathbf x}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}]=\mathbb E[{\mathbf x}^{2}]-(\mathbb E[{\mathbf x}])^{2}\\ Var [f(\mathbf x)]=\mathbb E[(f(\mathbf x)-\mathbb E[f(\mathbf x)])^{2}]\]

對於一個期望 $\mu$ ，方差 $\sigma^{2},\sigma \ne 0$ 的隨機變 ${\mathbf x}$ ，隨機變 ${\mathbf x}^{*}=\frac {{\mathbf x}-\mu}{\sigma}$ 的數學期望為0，方差為1。 ${\mathbf x}^{\ast}$ ${\mathbf x}$ 的標准化變量
方差的性質：
- 常數的方差恆為0
- 對常 $C$ $Var[C{\mathbf x}]=C^{2}Var[{\mathbf x}]$
- 對兩個隨機變 ${\mathbf x},{\mathbf y}$ ，有 $Var[{\mathbf x}+{\mathbf y}]=Var[{\mathbf x}] +Var[{\mathbf y}] +2\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E[{\mathbf y}])] $
  - 當 ${\mathbf x}$ 和 ${\mathbf y}$ 相互獨立時，有 $Var[{\mathbf x}+{\mathbf y}] = Var[{\mathbf x}] +Var[{\mathbf y}] $ 。可以推廣至任意有限多個相互獨立的隨機變量之和的情況
- $Var [{\mathbf x}] =0$ 的充要條件 ${\mathbf x}$ 以概率1取常數

3.2 協方差與相關系數

對於二維隨機變 $({\mathbf x},{\mathbf y})$ ，可以討論描 ${\mathbf x}$ ${\mathbf y}$ 之間相互關系的數字特征。
- 定義 $\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E [{\mathbf y}])] $ 為隨機變量 ${\mathbf x}$ 與 ${\mathbf y}$ 的協方差，記作 $ Cov[ {\mathbf x},{\mathbf y}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E [{\mathbf y}])]$ 。
- 定義 $\rho_{{\mathbf x}{\mathbf y}}=\frac {Cov[{\mathbf x},{\mathbf y}]}{\sqrt{Var[{\mathbf x}] }\sqrt{Var[{\mathbf y}]}}$ 為隨機變量 ${\mathbf x}$ 與 ${\mathbf y}$ 　的相關系數，它是協方差的歸一化。
由定義可知：

\[Cov[ {\mathbf x},{\mathbf y}] =Cov[ {\mathbf y},{\mathbf x}] \\ Cov [{\mathbf x},{\mathbf x}] =Var [{\mathbf x}] \\ Var [{\mathbf x}+{\mathbf y}] =Var [{\mathbf x}] +Var [{\mathbf y}] +2Cov [{\mathbf x},{\mathbf y}] $$ 3. 協方差的性質： - $Cov [a{\mathbf x},b{\mathbf y}] =abCov [{\mathbf x},{\mathbf y}] $ , $a,b$ 為常數 - $Cov[ {\mathbf x}_1+{\mathbf x}_2,{\mathbf y} ]=Cov [{\mathbf x}_1,{\mathbf y}] +Cov [{\mathbf x}_2,{\mathbf y}] $ - $Cov [f(\mathbf x),g(\mathbf y)]=\mathbb E[(f(\mathbf x)-\mathbb E[f(\mathbf x)])(g(\mathbf y)-\mathbb E[g(\mathbf y)])]$ - $\rho[f(\mathbf x),g(\mathbf y)]=\frac {Cov[f(\mathbf x),g(\mathbf y)]}{\sqrt{Var[f(\mathbf x)] }\sqrt{Var[g(\mathbf y)]}}$ 4. 協方差的物理意義： - 協方差的絕對值越大，說明兩個隨機變量都遠離它們的均值。 - 協方差如果為正，則說明兩個隨機變量同時趨向於取較大的值；如果為負，則說明一個隨變量趨向於取較大的值，另一個隨機變量趨向於取較小的值 - 兩個隨機變量的獨立性可以導出協方差為零。但是兩個隨機變量的協方差為零無法導出獨立性 - 因為獨立性也包括：沒有非線性關系。有可能兩個隨機變量是非獨立的，但是協方差為零 - 假設隨機變 $\mathbf x\sim U[-1,1]$ 。定義隨機變 $\mathbf s$ 的概率分布函數為： $$P(\mathbf s=1)= \frac 12P(\mathbf s=-1)= \frac 12 $$ 定義隨機變 $\mathbf y=\mathbf {sx}$ ，則隨機變 $\mathbf x,\mathbf y$ 是非獨立的，但是有 $Cov[\mathbf x,\mathbf y]=0$ 5. 相關系數的物理意義：考慮以隨機變 ${\mathbf x}$ 的線性函 $a+b{\mathbf x}$ 來近似表 ${\mathbf y}$ 。以均方誤差 $$e=\mathbb E[({\mathbf y}-(a+b{\mathbf x}))^{2}]=\mathbb E[{\mathbf y}^{2}] +b^{2}\mathbb E[{\mathbf x}^{2}] +a^{2}-2b\mathbb E[{\mathbf x}{\mathbf y}] +2ab\mathbb E[{\mathbf x}] -2a\mathbb E [{\mathbf y}] $$ 來衡量 $a+b{\mathbf x}$ 近似表 ${\mathbf y}$ 的好壞程度 $e$ 越小表示近似程度越高。為求得最好的近似，則 $a,b$ 分別取偏導數，得到： $$a_0=\mathbb E[{\mathbf y}] -b_0\mathbb E[{\mathbf x}] =\mathbb E[{\mathbf y}] -\mathbb E[{\mathbf x}] \frac{Cov [{\mathbf x},{\mathbf y}]}{Var [{\mathbf x}] }\\ b_0=\frac{Cov[ {\mathbf x},{\mathbf y}] }{Var[ {\mathbf x}] }\\ \min(e)=\mathbb E[({\mathbf y}-(a_0+b_0{\mathbf x}))^{2}]=(1-\rho^{2}_{{\mathbf x}{\mathbf y}})Var [{\mathbf y}] $$ 因此有以下定理： - $|\rho_{{\mathbf x}{\mathbf y}}| \le 1$ $|...|$ 是絕對值） - $|\rho_{{\mathbf x}{\mathbf y}}| = 1$ 的充要條件是，存在常數 $a,b$ 使得 $P\{{\mathbf y}=a+b{\mathbf x}\}=1$ > $|\rho_{{\mathbf x}{\mathbf y}}|$ 較大時 $e$ 較小，表明隨機變 ${\mathbf x}$ ${\mathbf y}$ 聯系較緊密，於 $\rho_{{\mathbf x}{\mathbf y}}$ 是一個表 ${\mathbf x}$ ${\mathbf y}$ 之間線性關系緊密程度的量。 6. $\rho_{{\mathbf x}{\mathbf y}}=0$ 時， ${\mathbf x}$ ${\mathbf y}$ 不相關。 - 不相關是就線性關系來講的，而相互獨立是一般關系而言的。 - 相互獨立一定不相關；不相關則未必獨立。 ### 3.3 協方差矩陣 1. 矩： ${\mathbf x}$ ${\mathbf y}$ 是隨機變量 - 若 $\mathbb E[{\mathbf x}^{k}] ,k=1,2,\cdots$ 存在，則稱它為 ${\mathbf x}$ 的 $k$ 階原點矩，簡稱 $k$ 階矩 - 若 $\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{k}] ,k=2,3,\cdots$ 存在，則稱它為 ${\mathbf x}$ 的 $k$ 階中心矩 - 若 $\mathbb E[{\mathbf x}^{k}{\mathbf y}^{l}] ,k,l=1,2,\cdots$ 存在，則稱它為 ${\mathbf x}$ 和 ${\mathbf y}$ 的 $ k+l$ 階混合矩 - 若 $\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{k}({\mathbf y}-\mathbb E[{\mathbf y}])^{l}] ,k,l=1,2,\cdots$ 存在，則稱它為 ${\mathbf x}$ 和 ${\mathbf y}$ 的 $k+l$ 階混合中心矩因此期望是一階原點矩，方差是二階中心矩，協方差是二階混合中心矩 2. 協方差矩陣：二維隨機變 $({\mathbf x}_1,{\mathbf x}_2)$ 有四個二階中心矩（設他們都存在），記作： $$\begin{align} c_{11}&=\mathbb E[({\mathbf x}_1-\mathbb E[{\mathbf x}_1])^{2}] \\ c_{12}&=\mathbb E[({\mathbf x}_1-\mathbb E[{\mathbf x}_1])( {\mathbf x}_2-\mathbb E[{\mathbf x}_2]) ] \\ c_{21}&=\mathbb E[( {\mathbf x}_2-\mathbb E[{\mathbf x}_2])({\mathbf x}_1-\mathbb E[{\mathbf x}_1] ) ] \\ c_{22}&=\mathbb E[({\mathbf x}_2-\mathbb E[{\mathbf x}_2])^{2}] \\ \end{align}$$ 這個矩陣稱作隨機變 $({\mathbf x}_1,{\mathbf x}_2)$ 的協方差矩陣。 $n$ 維隨機變 $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 的二階混合中心 $c_{ij}=Cov [{\mathbf x}_i,{\mathbf x}_j] =\mathbb E[({\mathbf x}_i-\mathbb E[{\mathbf x}_i] )( {\mathbf x}_j-\mathbb E[{\mathbf x}_j] ) ] ,i,j=1,2,\cdots,n$ ,都存在，則稱矩陣 $$\mathbf C= \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots &\vdots &\ddots &\vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{bmatrix}$$ $n$ 維隨機變 $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 的協方差矩陣。 - 由於 $c_{ij}=c_{ji}, i\ne j, i,j=1,2,\cdots,n$ 因此協方差矩陣是個對稱陣 > 通 $n$ 維隨機變量的分布是不知道的，或者太復雜以致數學上不容易處理。因此實際中協方差矩陣非常重要。 ## 四、大數定律及中心極限定理 ### 4.1 切比雪夫不等式 1. 切比雪夫不等式：隨機變 ${\mathbf x}$ 具有期 $\mathbb E[{\mathbf x}] =\mu$ ，方 $Var({\mathbf x})=\sigma^{2}$ ,對於任意正 $\varepsilon$ ，不等式 $$P\{|{\mathbf x}-\mu| \ge \varepsilon\} \le \frac {\sigma^{2}}{\varepsilon^{2}}$$ 成立 > 其意義是：對於距 $\mathbb E[{\mathbf x}] $ 足夠遠的地方（距離大於等 $\varepsilon$ ），事件出現的概率是小於等 $ \frac {\sigma^{2}}{\varepsilon^{2}}$ ；即事件出現在區 $[\mu-\varepsilon , \mu+\varepsilon]$ 的概率大 $1- \frac {\sigma^{2}}{\varepsilon^{2}}$ > 該不等式給出了隨機變 ${\mathbf x}$ 在分布未知的情況下，事 $\{|{\mathbf x}-\mu| \le \varepsilon\}$ 的下限估計（ $P\{|{\mathbf x}-\mu| \lt 3\sigma\} \ge 0.8889$ 證明： $$P\{|{\mathbf x}-\mu| \ge \varepsilon\}=\int_{|x-\mu| \ge \varepsilon}p(x)dx \le \int_{|x-\mu| \ge \varepsilon} \frac{|x-\mu|^{2}}{\varepsilon^{2}}p(x)dx \\ \le \frac {1}{\varepsilon^{2}}\int_{-\infty}^{\infty}(x-\mu)^{2}p(x)dx=\frac{\sigma^{2}}{\varepsilon^{2}}\]

切比雪夫不等式的特殊情況：設隨機變 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$ 相互獨立，且具有相同的數學期望和方差 $ \mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2},k=1,2,\cdots$ 。作 $n$ 個隨機變量的算術平均 $ \overline {\mathbf x} =\frac {1}{n} \sum _{k=1}^{n}{\mathbf x}_k$ ，則對於任意正 $ \varepsilon$ 有：

\[\lim_{n\rightarrow \infty}P\{|\overline {\mathbf x}-\mu| \lt \varepsilon\}=\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k-\mu| \lt \varepsilon\} =1$$ 證明： $$\mathbb E[\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k]=\mu\\ Var[\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k]=\frac{\sigma^{2}}{n}$$ 有切比雪夫不等式，以 $n$ 趨於無窮時，可以證明。詳細過程省略 ### 4.2 大數定理 1. 依概率收斂： ${\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_n,\cdots$ 是一個隨機變量序列 $a$ 是一個常數。若對於任意正 $ \varepsilon$ 有 $\lim_{n\rightarrow \infty}P\{|{\mathbf y}_{n}-a| \le \varepsilon \}=1$ ,則稱序 ${\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_n,\cdots$ 依概率收斂 $a$ 。記作 ${\mathbf y}_{n} \stackrel{P}{\rightarrow} a$ 2. 依概率收斂的兩個含義： - 收斂：表明這是一個隨機變量序列，而不是某個隨機變量；且序列是無限長，而不是有限長 - 依概率：表明序列無窮遠處的隨機變量 ${\mathbf y}_{\infty}$ 的分布規律為：絕大部分分布於點 $a$ ，極少數位於 $a$ 之外。且分布於 $a$ 之外的事件發生的概率之和為0 3. 大數定理一：設隨機變 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$ 相互獨立，且具有相同的數學期望和方差 $ \mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2},k=1,2,\cdots$ 。則序列 $ \overline {\mathbf x} =\frac {1}{n} \sum _{k=1}^{n}{\mathbf x}_k$ 依概率收斂 $\mu$ ， $\overline {\mathbf x} \stackrel{P}{\rightarrow} \mu$ - 這里並沒有要求隨機變量 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$ 同分布 4. 伯努利大數定理： $n_A$ $n$ 次獨立重復實驗中事 $A$ 發生的次數 $p$ 是事 $A$ 在每次試驗中發生的概率。則對於任意正 $ \varepsilon$ 有： $$\lim_{n \rightarrow \infty}P\{|\frac{n_{A}}{n}-p| \lt \varepsilon\}=1 \\ or: \quad \lim_{n \rightarrow \infty}P\{|\frac{n_{A}}{n}-p| \ge \varepsilon\}=0\]

- 即：當獨立重復實驗執行非常大的次數時，事件 $A$  發生的頻率逼近於它的概率

辛欽定理：設隨機變 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$ 相互獨立，服從同一分布，且具有相同的數學期望 $ \mathbb E[{\mathbf x}_k] =\mu,k=1,2,\cdots$ 。則對於任意正 $ \varepsilon$ 有：

\[\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k-\mu| \lt \varepsilon\} =1 \]

- 這里並沒有要求隨機變量  ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$   的方差存在
- 伯努利大數定理是親欽定理的特殊情況。

4.3 中心極限定理

獨立同分布的中心極限定理：設隨機變 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$ 獨立同分布，且具有數學期望和方差 $\mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2} \gt 0,k=1,2,\cdots$ ，則隨機變量之 $\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k$ 的標准變化量:

\[{\mathbf y}_n=\frac{\overline {S{\mathbf x}_n}-\mathbb E[\overline {S{\mathbf x}_n}] }{\sqrt{Var[\overline {S{\mathbf x}_n}] }}=\frac{\overline {S{\mathbf x}_n}-n\mu}{\sqrt n \sigma}$$ 的概率分布函 $F_n(x)$ 對於任 $x$ 滿足： $$\lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty}P\{{\mathbf y}_n \le x\}\\ =\lim_{n\rightarrow \infty}P\{\frac{\sum_{k=1}^{n} {\mathbf x}_k-n\mu}{\sqrt n \sigma} \le x\}\\ = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}/2}dt=\Phi(x)\]

- 其物理意義為：均值方差為 $\mu,\sigma^{2}$  的獨立同分布的隨機變量 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$   之和 $\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k$  的標准變化量 ${\mathbf y}_n$ ，當 $n$  充分大時，其分布近似與標准正態分布。即 $\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k$  在 $n$  充分大時，其分布近似於 $N(n\mu,n\sigma^{2})$ 
- 一般情況下，很難求出 $n$  個隨機變量之和的分布函數。因此當 $n$  充分大時，可以通過正態分布來做理論上的分析或者計算。

Liapunov定理：設隨機變 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$ 相互獨立，具有數學期望和方差 $\mathbb E[{\mathbf x}_k] =\mu_k,Var[{\mathbf x}_k] =\sigma_k^{2} \gt 0, k=1,2,\cdots$ ，記 $B_n^{2}=\sum_{k=1}^{n}\sigma_k^{2}$ 。
若存在正 $\delta$ ，使得 $n \rightarrow \infty$ 時，

\[\frac{1}{B_n^{2+\delta}}\sum_{k=1}^{n}\mathbb E [|{\mathbf x}_k-\mu_k|^{2+\delta}] \rightarrow 0$$ 則隨機變量之 $\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k$ 的標准變化量: $$Z_n=\frac{\overline {S{\mathbf x}_n}-\mathbb E[\overline {S{\mathbf x}_n}] }{\sqrt{Var [\overline {S{\mathbf x}_n}] }}=\frac{\overline {S{\mathbf x}_n}-\sum_{k=1}^{n}\mu_k}{B_n}$$ 的概率分布函 $F_n(x)$ 對於任 $x$ 滿足： $$\lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty}P\{Z_n \le x\}\\ =\lim_{n\rightarrow \infty}P\{\frac{\sum_{k=1}^{n} {\mathbf x}_k-\sum_{k=1}^{n}\mu_k}{B_n} \le x\}\\ = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}/ 2}dt=\Phi(x)\]

- 其物理意義為：相互獨立的隨機變量 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$  之和 $\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k$ 的衍生隨機變量序 $Z_n=\frac{\overline {S{\mathbf x}_n}-\sum_{k=1}^{n}\mu_k}{B_n}$ ，當 $n$  充分大時，其分布近似與標准正態分布。
- 這里並不要求 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots$  同分布

Demoiver-Laplace定理：設隨機變量序 $\eta_n,n=1,2,...$ 服從參數 $n, p(0 \lt p \lt 1)$ 的二項分布，則對於任 $x$ ,有：

\[\lim_{n\rightarrow \infty}P\{\frac{\eta_n-np}{\sqrt{np(1-p)}} \le x\}=\int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}\mid 2}dt=\Phi(x) \]

- 該定理表明，正態分布是二項分布的極限分布。當 $n$  充分大時，可以利用正態分布來計算二項分布的概率。

五、不確定性來源

機器學習中不確定性有三個來源:
- 模型本身固有的隨機性。如量子力學中的粒子動力學方程。
- 不完全的觀測。即使是確定性系統，當無法觀測所有驅動變量時，結果也是隨機的。
- 不完全建模。有時必須放棄一些觀測信息。
  - 如機器人建模中：雖然可以精確觀察機器人周圍每個對象的位置；但在預測這些對象將來的位置時，對空間進行了離散化。則位置預測將帶有不確定性。

六、常見概率分布

6.1 均勻分布

離散隨機變量的均勻分布：假 $\mathbf x$ $k$ 個取值 $x_1,x_2,\cdots,x_k$ ，則均勻分布的概率密度函數(probability mass function:PMF)為：

\[P(\mathbf x=x_i) =\frac 1k,\quad i=1,2,\cdots,k \]

連續隨機變量的均勻分布：假 $\mathbf x$ 在[a,b]上均勻分布，則其概率密度函數(probability density function：PDF)為：

\[p(\mathbf x=x)=\begin{cases} 0,&x\notin [a,b]\\ \frac{1}{b-a},&x \in [a,b]\\ \end{cases} \]

6.2 二項分布

伯努利分布（二項分布）：參數 $\phi\in [0,1]$ 。隨機變 $\mathbf x \in \{0,1\}$
- 概率分布函數為：

\[P(\mathbf x=x)=\phi^{x}(1-\phi)^{1-x}\;,x \in \{0,1\} \]

- 期望： $\mathbb E_{\mathbf x}[x]=\phi$ 
- 方差： $Var_{\mathbf x}[x]=\phi(1-\phi)$

categorical分布：它是二項分布的推廣，也稱作multinoulli分布。假設隨機變 $\mathbf x \in \{1,2,\cdots,K\}$ ，其概率分布函數為：

\[P(\mathbf x=1)=\theta_1\\ P(\mathbf x=2)=\theta_2\\ \vdots\\ P(\mathbf x=K-1)=\theta_{K-1}\\ P(\mathbf x=K)=1-\sum_{i=1}^{K-1}\theta_i \\$$ 其 $\theta_i$ 為參數，它滿 $\theta_i \in [0,1]$ ， $\sum_{i=1}^{K-1}\theta_i \in [0,1]$ 。 ### 6.3 高斯分布 #### 6.3.1 一維正態分布 1. 正態分布的概率密度函數為: $$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^{2}/ (2\sigma^{2})}, -\infty \lt x \lt \infty$$ 其 $\mu,\sigma(\sigma \gt 0) $ 為常數。 - 若隨機變量 ${\mathbf x}$ 的概率密度函數如上所述，則稱 ${\mathbf x}$ 服從參數為 $\mu,\sigma$ 的正態分布或者高斯分布，記作 ${\mathbf x} \sim N(\mu,\sigma^{2})$ 。 - 特別的，當 $\mu=0,\sigma=1$ 時，稱為標准正態分布，其概率密度函數記作 $\varphi(x)$ , 分布函數記作 $\Phi(x)$ 2. 為了計算方便，有時也記作： $$\mathcal N(x;\mu,\beta^{-1}) =\sqrt{\frac{\beta}{2\pi}}\exp\left(-\frac{1}{2}\beta(x-\mu)^{2}\right)$$ 其 $\beta \in (0,\infty)$ - 正態分布是很多應用中的合理選擇。如果某個隨機變量取值范圍是實數，且對它的概率分布一無所知，通常會假設它服從正態分布。有兩個原因支持這一選擇： - 建模的任務的真實分布通常都確實接近正態分布。中心極限定理表明，多個獨立隨機變量的和近似正態分布。 - 在具有相同方差的所有可能的概率分布中，正態分布的熵最大（即不確定性最大）。 3. 正態分布的概率密度函數性質： - 曲線關於 $x=\mu$ 對稱 - 曲線在 $x=\mu$ 時取最大值 - 曲線在 $x=\mu \pm \sigma $ 處有拐點 > 參 $\mu$ 決定曲線的位置 $\sigma$ 決定圖形的胖瘦 ![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/normal.png) 4. ${\mathbf x} \sim N(\mu,\sigma^{2})$ 則 $\frac{{\mathbf x}-\mu}{\sigma} \sim N(0,1)$ 5. 有限個相互獨立的正態隨機變量的線性組合仍然服從正態分布。 6. 正態分布的期望就 $\mu$ ，方差就 $\sigma^{2}$ 7. 若隨機變 ${\mathbf x}_i \sim N(\mu_i,\sigma_i^{2}),i=1,2,\cdots,n$ 且它們相互獨立，則它們的線性組合： $C_1{\mathbf x}_1+C_2{\mathbf x}_2+\cdots+C_n{\mathbf x}_n$ 其中 $C_1,C_2,\cdots,C_n$ 不全是為0的常數）仍然服從正態分布，且： $$C_1{\mathbf x}_1+C_2{\mathbf x}_2+\cdots+C_n{\mathbf x}_n \sim N(\sum_{i=1}^{n}C_i\mu_i,\sum_{i=1}^{n}C_i^{2}\sigma_i^{2})\]

6.3.2 多維正態分布

二維正態隨機變 $({\mathbf x}_1,{\mathbf x}_2)$ 的概率密度為：

\[p(x_1,x_2)=\\ \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x_1-\mu_1)^{2}}{\sigma_1^{2}}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^{2}}{\sigma_2^{2}}]\}$$ 可以計算出: $$p_{\mathbf x}(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_{\mathbf y}(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[{\mathbf x}] =\mu_1 \\ \mathbb E[{\mathbf y}] =\mu_2 \\ Var[{\mathbf x}] =\sigma_1^{2} \\ Var[{\mathbf y}]=\sigma_2^{2}\\ Cov[{\mathbf x},{\mathbf y}]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{{\mathbf x}{\mathbf y}}=\rho\]

引入矩陣：

\[\mathbf{\vec {\mathbf x}}=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\\ \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix}$$ $\mathbf \Sigma$ $({\mathbf x}_1,{\mathbf x}_2)$ 的協方差矩陣。其行列式 $\det \mathbf{\Sigma} =\sigma_1^{2}\sigma_2^{2}(1-\rho^{2})$ ，其逆矩陣為： $$\mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix}$$ 於 $({\mathbf x}_1,{\mathbf x}_2)$ 的概率密度函數可以寫 $( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T}$ 表示矩陣的轉置： $$p(x_1,x_2)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})\}$$ 其中均 $\mu_1,\mu_2$ 決定了曲面的位置（本例中均值都為0）。標准 $\sigma_1,\sigma_2$ 決定了曲面的陡峭程度（本例中方差都為1）。 $\rho$ 決定了協方差矩陣的形狀，從而決定了曲面的形狀 - $\rho=0$ 時，協方差矩陣對角線非零，其他位置均為零。此時表示隨機變量之間不相關。此時的聯合分布概率函數形狀如下圖所示，曲面在 $z=0$ 平面的截面是個圓形： ![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/2dimension_Normal_distribution_rho_0.png) - $\rho=0.5$ 時，協方差矩陣對角線非零，其他位置均為零。此時表示隨機變量之間相關。此時的聯合分布概率函數形狀如下圖所示，曲面在 $z=0$ 平面的截面是個橢圓，相當於圓形沿着直線 $y=x$ 方向壓縮： <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/2dimension_Normal_distribution_rho_0_5.png)</center> - $\rho=1$ 時，協方差矩陣對角線非零，其他位置均為零。此時表示隨機變量之間完全相關。此時的聯合分布概率函數形狀為：曲面在 $z=0$ 平面的截面是直線 $y=x$ ，相當於圓形沿着直線 $y=x$ 方向壓縮成一條直線。由於 $\rho=1$ 會導致除數為 0，因此這里給出 $\rho=0.9$ ： <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/2dimension_Normal_distribution_rho_0_9.png)</center> 3. 多維正態隨機變 $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ ，引入列矩陣： $$\mathbf{\vec {\mathbf x}}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[{\mathbf x}_1] \\ \mathbb E[{\mathbf x}_2] \\ \vdots\\ \mathbb E[{\mathbf x}_n] \end{bmatrix}$$ $\mathbf \Sigma$ $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 的協方差矩陣。則 $$p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})\}$$ 記做 $$\mathcal N(\mathbf{\vec x};\mathbf{\vec \mu},\mathbf\Sigma) =\sqrt{\frac{1}{(2\pi)^{n}det(\mathbf\Sigma)}}\exp\left(-\frac 12(\mathbf{\vec x-\vec \mu})^{T}\mathbf\Sigma^{-1}(\mathbf{\vec x-\vec \mu})\right)\]

$n$ 維正態變量具有下列四條性質：
- $n$ 維正態變量的每一個分量都是正態變量；反之， ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$ 都是正態變量，且相互獨立， $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ $n$ 維正態變量
- $n$ 維隨機變 $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 服 $n$ 維正態分布的充要條件 ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$ 的任意線性組合 $l_1{\mathbf x}_1+l_2{\mathbf x}_2+\cdots+l_n{\mathbf x}_n$ 服從一維正態分布，其 $l_1,l_2,\cdots,l_n$ 不全為0
- $({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 服 $n$ 維正態分布， ${\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_k$ ${\mathbf x}_j,j=1,2,\cdots,n$ 的線性函數， $({\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_k)$ 也服從多維正態分布

這一性質稱為正態變量的線性變換不變性

$({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)$ 服 $n$ 維正態分布， ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$ 相互獨 $\Longleftrightarrow$ ${\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n$ 兩兩不相關

6.4 指數分布

指數分布：
- 概率密度函數：

\[p(x;\lambda)=\begin{cases} 0,& x\lt0\\ \frac{\lambda}{\exp(\lambda x)},& x\ge0\\ \end{cases} \]

- 期望：  $\mathbb E_{\mathbf x}[x]=\frac{1}{\lambda}$ 
- 方差： $Var_{\mathbf x}[x]=\frac{1}{\lambda^{2}}$

![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/expon.png)

6.5 拉普拉斯分布

拉普拉斯分布：
- 概率密度函數：

\[p(x;\mu,\gamma)=\frac{1}{2\gamma}\exp\left(-\frac{|x-\mu|}{\gamma}\right) \]

- 期望：  $\mathbb E_{\mathbf x}[x]=\mu$ 
- 方差： $Var_{\mathbf x}[x]=2\gamma^{2}$

![](http://www.huaxiaozhuan.com/數學基礎/imgs/probability/laplace.png)

6.6 狄拉克分布

狄拉克分布：假設所有的概率都集中在一 $\mu$ 上，則對應的概率密度函數為：

\[p(x)=\delta(x-\mu) $$ 其 $\delta(\cdot)$ 為狄拉克函數，其性質為： $$\delta(x)=0,\forall x\neq 0 \int_{-\infty}^{\infty}\delta(x)dx=1 \]

狄拉克分布的一個典型用途就是定義連續型隨機變量的經驗分布函數。假設數據集中有樣 $\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_N$ ，則定義經驗分布函數：

\[\hat p(\mathbf{\vec x})=\frac 1N\sum_{i=1}^{N}\delta(\mathbf{\vec x}-\mathbf{\vec x}_i)$$ 它就是對每個樣本賦予了一個概率質 $\frac 1N$ 。 - 對於離散型隨機變量的經驗分布，則經驗分布函數就是`multinoulli`分布，它簡單地等於訓練集中的經驗頻率。 3. 經驗分布的兩個作用： - 通過查看訓練集樣本的經驗分布，從而指定該訓練集的樣本采樣的分布（保證采樣之后的分布不失真） - 經驗分布就是使得訓練數據的可能性最大化的概率密度函數 ### 6.7 多項式分布與狄里克雷分布 1. 多項式分布的質量密度函數： $$Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}$$ 它 $(\mu_1+\mu_2+\cdots+\mu_K)^{m_1+m_2+\cdots+m_K}$ 的多項式展開的形式 2. 狄利克雷分布的概率密度函數： $$Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}\]

可以看到，多項式分布與狄里克雷分布的概率密度函數非常相似，區別僅僅在於前面的歸一化項
- 多項式分布是針對離散型隨機變量，通過求和獲取概率
- 狄里克雷分布時針對連續型隨機變量，通過求積分來獲取概率

6.8 混合概率分布

混合概率分布：它組合了其他幾個分量的分布來組成。
- 在每次生成樣本中，首先通過multinoulli分布來決定選用哪個分量，然后由該分量的分布函數來生成樣本。
- 其概率分布函數為：

\[P(\mathbf x)=\sum_{i}P(c=i)P(\mathbf x\mid c=i)$$ 其 $P(c=i)$ 為一個`multinoulli`分布 $c$ 的取值范圍就是各分量的編號。 2. 前面介紹的連續型隨機變量的經驗分布函數就是一個混合概率分布的例子，此 $P(c=i)=\frac 1N$ 3. 混合概率分布可以通過簡單的概率分布創建更復雜的概率分布 - 一個常見的例子是混合高斯模型，其 $P(\mathbf x\mid c=i)$ 為高斯模型。每個分量都有對應的參 $(\mathbf{\vec \mu}_i,\mathbf \Sigma_i)$ - 有些混合高斯模型有更強的約束，如 $\forall i,\mathbf \Sigma_i=\mathbf\Sigma$ ，更進一步還可以要求 $\mathbf\Sigma$ 為一個對角矩陣。 - 混合高斯模型是一個通用的概率密度函數逼近工具。任何平滑的概率密度函數都可以通過足夠多分量的混合高斯模型來逼近。 ## 七、先驗分布與后驗分布 1. 在貝葉斯學派中，`先驗分布+數據（似然）= 后驗分布` 2. 例如：假設需要識別一大箱蘋果中的好蘋果、壞蘋果的概率。 - 根據你對蘋果好、壞的認知，給出先驗分布為：50個好蘋果和50個壞蘋果 - 現在你拿出10個蘋果，發現有：8個好蘋果，2個壞蘋果。根據數據，你得到后驗分布為：58個好蘋果，52個壞蘋果 - 再拿出10個蘋果，發現有：9個好蘋果，1個壞蘋果。根據數據，你得到后驗分布為：67個好蘋果，53個壞蘋果 - 這樣不斷重復下去，不斷更新后驗分布。當一箱蘋果清點完畢，則得到了最終的后驗分布。在這里： - 如果不使用先驗分布，僅僅清點這箱蘋果中的好壞，則得到的分布只能代表這一箱蘋果。 - 采用了先驗分布之后得到的分布，可以認為是所有箱子里的蘋果的分布。 - 先驗分布時：給出的好、壞蘋果的個數（也就是頻數）越大，則先驗分布越占主導地位。 3. 假設好蘋果的概率 $p$ ，則抽 $N$ 個蘋果中，好蘋果個數 $k$ 個的概率為一個二項分布： $$Binom(k\mid p;N)=C_N^kp^k(1-p)^{N-k}$$ 其 $C_N^k$ 為組合數。 4. 現在的問題是：好蘋果的概 $p$ 不再固定，而是服從一個分布。假設好蘋果的概 $p$ 的先驗分布為貝塔分布 $$Beta(p; \alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}$$ 則后驗概率為： $$P(p\mid k; N,\alpha,\beta)=\frac{P(k\mid p; N)\times P(p; \alpha,\beta)}{P(k; N,\alpha,\beta)} \\ \propto P(k\mid p; N)\times P(p; \alpha,\beta)=C_N^kp^k(1-p)^{N-k}\times \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\\ \propto p^{k+\alpha-1}(1-p)^{N-k+\beta-1}$$ 歸一化之后，得到后驗概率為： $$P(p\mid k;N,\alpha,\beta)=\frac{\Gamma(\alpha+\beta+N)}{\Gamma(\alpha+k)\Gamma(\beta+N-k)}p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\]

好蘋果概 $p$ 的先驗分布的期望為：

\[\mathbb E[p]=\frac{\alpha}{\alpha+\beta}$$ 好蘋果概 $p$ 的后驗分布的期望為： $$\mathbb E[p\mid k]=\frac{\alpha+k}{\alpha+\beta+N}\]

- 根據上述例子所述：
	- 好蘋果的先驗概率的期望為 $\frac {50}{50+50}=\frac 12$ 
	- 進行第一輪數據校驗之后，好蘋果的后驗概率的期望為 $\frac {50+8}{50+50+10}=\frac {58}{110}$ 
- 如果 $\alpha$ 視為先驗的好蘋果數量 $\beta$ 視為先驗的壞蘋果數量 $N$ 表示箱子中蘋果的數量 $k$ 表示箱子中的好蘋果數量（相應的 $N-k$ 就是箱子中壞蘋果的數量）。則：好蘋果的先驗概率分布的期望、后驗概率分布的期望符合人們的生活經驗。
- 這里使用先驗分布和后驗分布的期望，因 $p$ 是一個隨機變量。若想通過一個數值來刻畫好蘋果的可能性，則用期望較好。

更一般的，如果蘋果不僅僅分為好、壞兩種，而是分作“尺寸1、尺寸2、...尺 $K$ ”等。 $N$ 個蘋果中， $m_1$ 個尺寸1的蘋果 $m_2$ 個尺寸2的蘋果... $m_K$ 個尺 $K$ 的蘋果的概率服從多項式分布：

\[Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}$$ 其中蘋果為尺寸1的概率 $\mu_1$ ，尺寸2的概率 $\mu_2$ ，...尺 $K$ 的概率 $\mu_K$ $N=\sum_{k=1}^Km_k$ - 假設蘋果尺寸的先驗概率分布為狄利克雷分布： $$Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}$$ 蘋果尺寸的先驗概率分布的期望為： $$\mathbb E[\vec\mu]=\left(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k}\right)\]

- 則蘋果尺寸的后驗概率分布也為狄里克雷分布：

\[Dir(\vec\mu;\vec\alpha+\mathbf{\vec m})=\frac{\Gamma(N+\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k+m_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1}$$ 蘋果尺寸的后驗概率分布的期望為： $$\mathbb E[\vec\mu]=\left(\frac{\alpha_1+m_1}{N+\sum_{k=1}^K\alpha_k},\frac{\alpha_2+m_2}{N+\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K+m_K}{N+\sum_{k=1}^K\alpha_k}\right)\]

八、測度論

測度為零：非正式化的提法是，如果集合中的點的數量可以忽略不計，則該集合的測度為零。
- 如：二維空間中的直線的測度為零，而正方形的測度非零。
幾乎處處相等：不滿足條件的那些點組成的集合的測度為零。
假設隨機變 $\mathbf x,\mathbf y$ 滿 $\mathbf y=g(\mathbf x)$ ，且函 $g(\cdot)$ 滿足：處處連續、可導、且存在反函數。
則有：

\[p_{\mathbf x}(x)=p_{\mathbf y}(g(x)) \left|\frac{\partial g(x)}{\partial x}\right|$$ 或者等價地： $$p_{\mathbf y}(y)=p_{\mathbf x}(g^{-1}(y)) \left|\frac{\partial x}{\partial y}\right| \]

- 如果擴展到高維空間，則有：

\[p_{\mathbf x}(\mathbf{\vec x})=p_{\mathbf y}(g(\mathbf{\vec x})) \left|\det\left(\frac{\partial g(\mathbf{\vec x})}{\partial \mathbf{\vec x}}\right)\right| \]

- 並不 $p_{\mathbf y}(y)=p_{\mathbf x}(g^{-1}(y))$ ，這是因 $g(\cdot)$ 引起了空間扭曲，從而導 $\int p_{\mathbf x}(g(x))dx \neq 1$ 。其實我們有：

\[|p_{\mathbf y}(g(x))dy|=|p_{\mathbf x}(x)dx|$$ 求解該方程，即得到上述解。 ## 九、信息論 1. 信息論背后的原理是：從不太可能發生的事件中能學到更多的有用信息。 - 發生可能性較大的事件包含較少的信息 - 發生可能性較小的事件包含較多的信息 - 獨立事件包含額外的信息對於事 $\mathbf x=x$ ，定義自信息`self-information`為： $$I(x)=-\log P(x) \]

自信息僅僅處理單個輸出，但是如果計算自信息的期望，它就是熵：

\[H(\mathbf x)=\mathbb E_{\mathbf x\sim P}[I(x)]=-\mathbb E_{\mathbf x\sim P}[\log P(x)]$$ 記 $H(P)$ 。熵刻畫了按照真實分 $P$ 來識別一個樣本所需要的編碼長度的期望（即平均編碼長度）。如：含有4個字母`(A,B,C,D)`的樣本集中，真實分 $P=(\frac 12,\frac 12,0,0)$ ，則只需要1位編碼即可識別樣本。 3. `KL`散度：對於給定的隨機變 $\mathbf x$ ,它的兩個概率分布函 $P(x)$ $Q(x)$ 的區別可以用`KL`散度來度量： $$D_{KL}(P||Q)=\mathbb E_{\mathbf x\sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E_{\mathbf x\sim P}\left[\log P(x) -\log Q(x) \right]\]

- `KL`散度非負。當它為0時，當且僅當 `P`和`Q`是同一個分布（對於離散型隨機變量），或者兩個分布幾乎處處相等（對於連續型隨機變量）
- $D_{KL}(P||Q) \neq D_{KL}(Q||P)$

交叉熵cross-entropy $H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{\mathbf x\sim P}\log Q(x)$ 。
交叉熵刻畫了使用錯誤分 $Q$ 來表示真實分 $P$ 中的樣本的平均編碼長度。
$D_{KL(P||Q)}$ 刻畫了錯誤分 $Q$ 編碼真實分 $P$ 帶來的平均編碼長度的增量。

數值計算

一、數值穩定性

1.1 近似誤差

在計算機中執行數學運算需要使用有限的比特位來表達實數，這會引入近似誤差
- 近似誤差可以在多步數值運算中傳遞、積累，從而導致理論上成功的算法失敗
- 數值算法設計時要考慮將累計誤差最小化
上溢出overflow和下溢出underflow：
- 一種嚴重的誤差是下溢出：當接近零的數字四舍五入為零時，發生下溢出
  - 許多函數在參數為零和參數為一個非常小的正數時，行為是不同的。如對數函數要求自變量大於零；除法中要求除數非零。
- 另一種嚴重的誤差是上溢出：當數值非常大，超過了計算機的表示范圍時，發生上溢出。

1.2 softmax 函數

一個數值穩定性的例子是softmax函數。
$\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^{T}$ ，則softmax函數定義為：

\[\text{softmax}(\mathbf{\vec x})=\left(\frac{\exp(x_1)}{\sum_{j=1}^{n}\exp(x_j)},\frac{\exp(x_2)}{\sum_{j=1}^{n}\exp(x_j)},\cdots,\frac{\exp(x_n)}{\sum_{j=1}^{n}\exp(x_j)}\right)^{T} $$ 當所有 $x_i$ 都等於常 $c$ 時，`softmax`函數的每個分量的理論值都 $\frac 1n$ - 考慮 $c$ 是一個非常大的負數（比如趨近負無窮），此時 $\exp( c)$ 下溢出。此時 $ \frac{\exp(c )}{\sum_{j=1}^{n}\exp(c )}$ 分母為零，結果未定義。 - 考慮 $c$ 是一個非常大的正數（比如趨近正無窮），此時 $\exp( c)$ 上溢出。 $ \frac{\exp(c )}{\sum_{j=1}^{n}\exp(c )}$ 的結果未定義。 2. 解決的辦法是： $\mathbf{\vec z}=\mathbf{\vec x}-\max_i x_i$ ，則 $\text{softmax}(\mathbf{\vec z}) $ 的 $i$ 個分量為： $$\text{softmax}(\mathbf{\vec z})_i=\frac{\exp(z_i)}{\sum_{j=1}^{n}\exp(z_j)}=\frac{\exp(\max_k x_k)\exp(z_i)}{\exp(\max_k x_k)\sum_{j=1}^{n}\exp(z_j)}\\ =\frac{\exp(z_i+\max_k x_k)}{\sum_{j=1}^{n}\exp(z_j+\max_k x_k)}\\ =\frac{\exp(x_i)}{\sum_{j=1}^{n}\exp(x_j)}\\ =\text{softmax}(\mathbf{\vec x})_i\]

- 當 $\mathbf{\vec x} $   的分量較小時， $\mathbf{\vec z} $  的分量至少有一個為零，從而導致 $\text{softmax}(\mathbf{\vec z})_i$  的分母至少有一項為 1，從而解決了下溢出的問題。
- 當  $\mathbf{\vec x} $   的分量較大時 $\text{softmax}(\mathbf{\vec z})_i$  相當於分子分母同時除以一個非常大的數  $\exp(\max_i x_i)$  ，從而解決了上溢出。

還有個問題： $\mathbf{\vec x} $ 的分量較小時 $\text{softmax}(\mathbf{\vec x})_i$ 的計算結果可能為0。
- 此 $\log \text{softmax}(\mathbf{\vec x})$ 趨向於負無窮，非數值穩定的。因此需要設計專門的函數來計 $\log\text{softmax}$ ，而不是 $\text{softmax}$ 的結果傳遞 $\log$ 函數。

通常 $\text{softmax}$ 函數的輸出作為模型的輸出。由於一般使用樣本的交叉熵作為目標函數，因此需要用 $\text{softmax}$ 輸出的對數。

當從頭開始實現一個數值算法時，需要考慮數值穩定性。
當使用現有的數值計算庫時，不需要考慮數值穩定性。
softmax名字的來源是hardmax。
hardmax把一個向 $\mathbf{\vec x} $ 映射成向 $(0,\cdots,0,1,0,\cdots,0)^T$ 。即 $\mathbf{\vec x}$ 最大元素的位置填充1，其它位置填充0。
softmax會在這些位置填充0.0~1.0之間的值（如：某個概率值）。

二、Conditioning

Conditioning刻畫了一個函數的如下特性：當函數的輸入發生了微小的變化時，函數的輸出的變化有多大。
- 對於Conditioning較大的函數，在數值計算中可能有問題。因為函數輸入的舍入誤差可能導致函數輸出的較大變化。
對於方 $\mathbf A\in \mathbb R^{n\times n}$ ，其條件數condition number為：

\[\text{condition number}=\max_{1\le i,j\le n,i\ne j}\left|\frac{\lambda_i}{\lambda_j} \right|$$ 其 $\lambda_i,i=1,2,\cdots,n$ $\mathbf A$ 的特征值。 - 方陣的條件數就是最大的特征值除以最小的特征值。 - 當方陣的條件數很大時，矩陣的求逆將對誤差特別敏感（即： $\mathbf A$ 的一個很小的擾動，將導致其逆矩陣一個非常明顯的變化）。 - 條件數是矩陣本身的特性，它會放大那些包含矩陣求逆運算過程中的誤差。 ## 三、梯度下降法 1. 梯度下降法是求解無約束最優化問題的一種常見方法，優點是實現簡單 2. 對於函數 $f:\mathbb R^{n} \rightarrow \mathbb R$ ，輸入為多維的。假設輸 $\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^{T}$ ，則定義梯度： $$\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\left(\frac{\partial}{\partial x_1}f(\mathbf{\vec x}),\frac{\partial}{\partial x_2}f(\mathbf{\vec x}),\cdots,\frac{\partial}{\partial x_n}f(\mathbf{\vec x})\right)^{T}\]

- 駐點滿足： $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\mathbf{\vec 0}$

沿着方 $\mathbf{\vec u}$ 的方向導數directional derivative定義為：

\[\lim_{\alpha\rightarrow 0}\frac{f(\mathbf{\vec x}+\alpha\mathbf{\vec u})-f(\mathbf{\vec x})}{\alpha} $$ 其 $\mathbf{\vec u}$ 為單位向量。 - 方向導數就是 $\frac{\partial}{\partial \alpha}f(\mathbf{\vec x}+\alpha\mathbf{\vec u})$ 。根據鏈式法則，它也等於 $\mathbf{\vec u}^{T}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})$ 4. 為了最小 $f$ ，則尋找一個方向：沿着該方向，函數值減少的速度最快（換句話說，就是增加最慢）。即： $$\min_{\mathbf{\vec u}} \mathbf{\vec u}^{T}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\\ s.t.\quad ||\mathbf{\vec u}||_2=1\]

- 假 $\mathbf{\vec u}$ 與梯度的夾角 $\theta$ ，則目標函數等於：

\[||\mathbf{\vec u}||_2||\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})||_2 \cos\theta$$ 考慮 $||\mathbf{\vec u}||_2=1$ ，以及梯度的大小 $\theta$ 無關，於是上述問題轉化為： $$\min_\theta \cos\theta$$ 於是 $\theta^{*}=\pi$ ， $\mathbf{\vec u}$ 沿着梯度的相反的方向。即：梯度的方向是函數值增加最快的方向，梯度的相反方向是函數值減小的最快的方向。 - 可以沿着負梯度的方向來降 $f$ 的值，這就是梯度下降法。 5. 根據梯度下降法，為了尋 $f$ 的最小點，迭代過程為： $$\mathbf{\vec x}^{\prime}= \mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})$$ 迭代結束條件為：梯度向 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})$ 的每個成分為零或者非常接近零。 - $\epsilon$ 為學習率，它是一個正數，決定了迭代的步長。 6. 選擇學習率有多種方法： - 一種方法是：選 $\epsilon$ 為一個小的、正的常數 - 另一種方法是：給定多 $\epsilon$ ，然后選擇使 $f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))$ 最小的那個值作為本次迭代的學習率（即：選擇一個使得目標函數下降最大的學習率）。這種做法叫做線性搜索`line search` - 第三種方法是：求得 $f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))$ 取極小值 $\epsilon$ ，即求解最優化問題： $$\epsilon^{*}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))$$ 這種方法也稱作最速下降法。 - 在最速下降法中，假設相鄰的三個迭代點分別為 $\mathbf{\vec x}^{<k>},\mathbf{\vec x}^{<k+1>},\mathbf{\vec x}^{<k+2>}$ ，可以證明 $(\mathbf{\vec x}^{<k+1>}-\mathbf{\vec x}^{<k>})\cdot (\mathbf{\vec x}^{<k+2>}-\mathbf{\vec x}^{<k+1>})=0$ 。即相鄰的兩次搜索的方向是正交的！證明： $$\mathbf{\vec x}^{<k+1>}=\mathbf{\vec x}^{<k>}-\epsilon^{<k>}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k>})\\ \mathbf{\vec x}^{<k+2>}=\mathbf{\vec x}^{<k+1>}-\epsilon^{<k+1>}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})\\$$ 根據最優化問題，有： $$\epsilon^{<k+1>}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}^{<k+1>}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>}))\\ \rightarrow \frac{\partial f(\mathbf{\vec x}^{<k+1>}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})) }{\partial \epsilon}\mid_{\epsilon=\epsilon^{<k+1>}}=0\\ \rightarrow \nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+2>})\cdot \nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})=0\\ \rightarrow (\mathbf{\vec x}^{<k+1>}-\mathbf{\vec x}^{<k>})\cdot (\mathbf{\vec x}^{<k+2>}-\mathbf{\vec x}^{<k+1>})=0\]

	- 此時迭代的路線是鋸齒形的，因此收斂速度較慢

某些情況下如果梯度向 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})$ 的形式比較簡單，則可以直接求解方程：

\[\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\mathbf{\vec 0} \]

- 此時不用任何迭代，直接獲得解析解。

梯度下降算法：
- 輸入：
  - 目標函數 $f(\mathbf {\vec x})$
  - 梯度函數 $g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x}) $
  - 計算精度 $e$
- 輸出 $f(\mathbf {\vec x})$ 的極小 $\mathbf {\vec x}^*$
- 算法步驟：
  - 選取初始 $\mathbf {\vec x}^{<0>}\in \mathbb R^{n}$ , $k=0$
  - 計 $f(\mathbf {\vec x}^{<k>})$
  - 計算梯 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$
    - 若梯 $|\mathbf {\vec g}_k| \lt e$ ，則停止迭代 $\mathbf {\vec x}^*=\mathbf {\vec x}$

即此時導數為0

		- 若梯 $|\mathbf {\vec g}_k| \ge e$ ，則 $\mathbf {\vec p}_k=-\mathbf {\vec g}_k$ ， $\epsilon_k$  $\epsilon_k =\min_{\epsilon  \le 0}f(\mathbf {\vec x}^{<k>}+\epsilon  \mathbf {\vec p}_k)$

通常這也是個最小化問題。但是可以給定一系列 $\epsilon_k$ 的值：如[10,1,0.1,0.01,0.001,0.0001]然后從中挑選

		-  $\mathbf {\vec x}^{<k+1>} = \mathbf {\vec x}^{<k>}+\epsilon_k \mathbf {\vec p}_k$ ，計 $f(\mathbf {\vec x}^{<k+1>})$ 
			- 若 $|f(\mathbf {\vec x}^{<k+1>})-f(\mathbf {\vec x}^{<k>})| \lt e$ 或者 $|\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>}| \lt e$  時，停止迭代 $\mathbf {\vec x}^*=\mathbf {\vec x}$ 
			- 否則，令  $k=k+1$  ，計算梯度 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$  繼續迭代

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/gradient_descent.png)

當目標函數是凸函數時，梯度下降法的解是全局最優的。
- 通常情況下，梯度下降法的解不保證是全局最優的
- 梯度下降法的收斂速度未必是最快的

四、海森矩陣

4.1 二階導數

二階導 $f^{\prime\prime}(x)$ 刻畫了曲率。假設有一個二次函數（實際任務中，很多函數不是二次的，但是在局部可以近似為二次函數）：
- 如果函數的二階導數為零，則它是一條直線。如果梯度為 1，則當沿着負梯度的步長為 $\epsilon$ 時，函數值減少 $\epsilon$
- 如果函數的二階導數為負，則函數向下彎曲。如果梯度為1，則當沿着負梯度的步長為 $\epsilon$ 時，函數值減少的量大於 $\epsilon$
- 如果函數的二階導數為正，則函數向上彎曲。如果梯度為1，則當沿着負梯度的步長為 $\epsilon$ 時，函數值減少的量少於 $\epsilon$

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/curvature.png)

4.2 海森矩陣

當函數輸入為多維時，定義海森矩陣：

\[\mathbf H(f)(\mathbf{\vec x}) =\begin{bmatrix} \frac{\partial^{2}}{\partial x_1\partial x_1}f&\frac{\partial^{2}}{\partial x_1\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_1\partial x_n}f\\ \frac{\partial^{2}}{\partial x_2\partial x_1}f&\frac{\partial^{2}}{\partial x_2\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_2\partial x_n}f\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial^{2}}{\partial x_n\partial x_1}f&\frac{\partial^{2}}{\partial x_n\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_n\partial x_n}f \end{bmatrix}$$ 即海森矩陣的 $i$ $j$ 列元素為： $$\mathbf H_{i,j}=\frac{\partial^{2}}{\partial x_i\partial x_j}f(\mathbf{\vec x}) \]

- 當二階偏導是連續時，海森矩陣是對稱陣，即有 $\mathbf H=\mathbf H^{T}$ 
	- 在深度學習中大多數海森矩陣都是對稱陣

對於特定方 $\mathbf{\vec d}$ 上的二階導數為：

\[\mathbf{\vec d}^T\mathbf H \mathbf{\vec d} \]

- 如果  $\mathbf{\vec d}$  是海森矩陣的特征向量，則該方向的二階導數就是對應的特征值
- 如果 $\mathbf{\vec d}$  不是海森矩陣的特征向量，則該方向的二階導數就是所有特征值的加權平均，權重在 `(0,1)`之間。且與 $\mathbf{\vec d}$  夾角越小的特征向量對應的特征值具有更大的權重。
- 最大特征值確定了最大二階導數，最小特征值確定最小二階導數

4.3 海森矩陣與學習率

$f(\mathbf{\vec x})$ $\mathbf{\vec x}_0$ 處泰勒展開：

\[f(\mathbf{\vec x}) \approx f(\mathbf{\vec x}_0)+(\mathbf{\vec x}-\mathbf{\vec x}_0 )^{T}\mathbf{\vec g}+\frac 12(\mathbf{\vec x}-\mathbf{\vec x}_0)^{T}\mathbf H (\mathbf{\vec x}-\mathbf{\vec x}_0)$$ 其 $\mathbf{\vec g}$ $\mathbf{\vec x}_0$ 處的梯度 $\mathbf H$ $\mathbf{\vec x}_0$ 處的海森矩陣。根據梯度下降法： $$\mathbf{\vec x}^{\prime}= \mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})$$ 應用在 $\mathbf{\vec x}_0$ ，有： $$f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})\approx f(\mathbf{\vec x}_0)-\epsilon\mathbf{\vec g}^{T}\mathbf{\vec g}+\frac 12\epsilon^{2}\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g}\]

- 第一項代表函數在點 $\mathbf{\vec x}_0$  處的值
- 第二項代表由於斜率的存在，導致函數值的變化
- 第三項代表由於曲率的存在，對於函數值變化的矯正

注意：如 $\frac 12\epsilon^{2}\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g}$ 較大，則很有可能導致：沿着負梯度的方向，函數值反而增加！
- 如 $\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \le 0$ ，則無 $\epsilon$ 取多大的值，可以保證函數值是減小的
- 如 $\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \gt 0$ ，則學習 $\epsilon$ 不能太大。 $\epsilon$ 太大則函數值增加
  - 根 $f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g}) - f(\mathbf{\vec x}_0) \lt 0$ 有：

\[\epsilon \lt \frac{\mathbf{2\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}} \]

	- 考慮最速下降法，選擇使 $f$ 下降最快 $\epsilon$ ，則有：

\[\epsilon^{*}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})$$ 求 $\frac{\partial }{\partial \epsilon} f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})=0$ 有： $$\epsilon^{*}=\frac{\mathbf{\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}}$$ > 根 $\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \gt 0$ ，很明顯有 $\epsilon^{*} \lt \frac{\mathbf{2\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}} $ 3. 由於海森矩陣為實對稱陣，因此它可以進行特征值分解。假設其特征值從大到小排列為： $$\lambda_1,\lambda_2,\cdots,\lambda_n$$ 其瑞利商 $R(\mathbf{\vec x})=\frac{\mathbf{\vec x}^{T}\mathbf H\mathbf{\vec x}}{\mathbf{\vec x}^{T}\mathbf{\vec x}},\mathbf{\vec x} \ne \mathbf{\vec 0}$ ，可以證明： $$\lambda_n \le R(\mathbf{\vec x}) \le \lambda_1\\ \lambda_1=\max_{\mathbf{\vec x}\ne \mathbf{\vec 0}} R(\mathbf{\vec x})\\ \lambda_n=\min_{\mathbf{\vec x}\ne \mathbf{\vec 0}} R(\mathbf{\vec x}) $$ 根據： $$\epsilon^{*}=\frac{\mathbf{\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}}=\frac{1}{R(\mathbf{\vec g})}$$ 可知海森矩陣決定了學習率的取值范圍。 - 最壞的情況下，梯度 $\mathbf{\vec g}$ 與海森矩陣最大特征值 $\lambda_1$ 對應的特征向量平行，則此時最優學習率為 $\frac {1}{\lambda_1}$ ### 4.4 駐點與全局極小點 1. 滿足導數為零的點（ $f^{\prime}(x)=0$ ）稱作駐點。駐點可能為下面三種類型之一： - 局部極小點：在 $x$ 的一個鄰域內，該點的值最小 - 局部極大點：在 $x$ 的一個鄰域內，該點的值最大 - 鞍點：既不是局部極小，也不是局部極大 <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/critical_point.png)</center> 2. 全局極小點 $x^{*}=\arg\min_x f(x)$ 。 - 全局極小點可能有一個或者多個 - 在深度學習中，目標函數很可能具有非常多的局部極小點，以及許多位於平坦區域的鞍點。這使得優化非常不利。因此通常選取一個非常低的目標函數值，而不一定要是全局最小值。 <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/deeplearning_optimization.png)</center> 3. 二階導數可以配合一階導數來決定駐點的類型： - 局部極小點 $f^{\prime}(x)=0,f^{\prime\prime}(x)\gt 0$ - 局部極大點 $f^{\prime}(x)=0,f^{\prime\prime}(x)\lt 0$ - $f^{\prime}(x)=0,f^{\prime\prime}(x)= 0$ ：駐點的類型可能為任意三者之一。 4. 對於多維的情況類似： - 局部極小點 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ，且海森矩陣為正定的（即所有的特征值都是正的）。 - 當海森矩陣為正定時，任意方向的二階偏導數都是正的。 - 局部極大點 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ，且海森矩陣為負定的（即所有的特征值都是負的）。 - 當海森矩陣為負定時，任意方向的二階偏導數都是負的。 - $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ，且海森矩陣的特征值中至少一個正值、至少一個負值時，為鞍點。 - 當海森矩陣非上述情況時，駐點類型無法判斷。下圖 $f(\mathbf{\vec x})=x_1^{2}-x_2^{2}$ 在原點附近的等值線。其海森矩陣為一正一負。 - 沿着 $x_1$ 方向，曲線向上；沿着 $x_2$ 方向，曲線向下。 - 鞍點就是在一個橫截面內的局部極小值，另一個橫截面內的局部極大值。 <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/saddle.png)</center> ## 四、牛頓法 1. 梯度下降法有個缺陷：它未能利用海森矩陣的信息 - 當海森矩陣的條件數較大時，不同方向的梯度的變化差異很大。 - 在某些方向上，梯度變化很快；在有些方向上，梯度變化很慢 - 梯度下降法未能利用海森矩陣，也就不知道應該優先搜索導數長期為負的方向。 > 本質上應該沿着負梯度方向搜索。但是沿着該方向的一段區間內，如果導數一直為負，則可以直接跨過該區間。前提是：必須保證該區間內，該方向導數一直為負。 - 當海森矩陣的條件數較大時，也難以選擇合適的步長。 - 步長必須足夠小，從而能夠適應較強曲率的地方（對應着較大的二階導數，即該區域比較陡峭） - 但是如果步長太小，對於曲率較小的地方（對應着較小的二階導數，即該區域比較平緩）則推進太慢。 > 曲率刻畫彎曲程度，曲率越大則曲率半徑越小 2. 下圖是利用梯度下降法尋找函數最小值的路徑。 - 該函數是二次函數，海森矩陣條件數為 5，表明最大曲率是最小曲率的5倍。 - 紅線為梯度下降的搜索路徑。（它沒有用最速下降法，而是用到線性搜索。如果是最速下降法，則相鄰兩次搜索的方向正交） <center>![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/g_descent.png)</center> 3. 牛頓法結合了海森矩陣。考慮泰勒展開式： $$f(\mathbf{\vec x}) \approx f(\mathbf{\vec x}_0)+(\mathbf{\vec x}-\mathbf{\vec x}_0 )^{T}\mathbf{\vec g}+\frac 12(\mathbf{\vec x}-\mathbf{\vec x}_0)^{T}\mathbf H (\mathbf{\vec x}-\mathbf{\vec x}_0)$$ 其 $\mathbf{\vec g}$ $\mathbf{\vec x}_0$ 處的梯度 $\mathbf H$ $\mathbf{\vec x}_0$ 處的海森矩陣。如 $\mathbf{\vec x}$ 為極值點，則有 $\frac{\partial}{\partial \mathbf{\vec x}}f(\mathbf{\vec x})=\mathbf{\vec 0}$ ，則有： $$\mathbf{\vec x}^{*}=\mathbf{\vec x}_0 -\mathbf H^{-1}\mathbf{\vec g}\]

- 當 $f$  是個正定的二次型，則牛頓法直接一次就能到達最小值點
- 當  $f$  不是正定的二次型，則可以在局部近似為正定的二次型，那么則采用多次牛頓法即可到達最小值點。

一維情況下，梯度下降法和牛頓法的原理展示：

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/newton.JPG)

- 梯度下降法：下一次迭代的 $\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\epsilon_k \nabla f(\mathbf {\vec x})$ 。
	- 對於一維的情況，可以固定 $\epsilon_k=\eta$ ，由於隨着迭代的推進 $f^{\prime}(x)$  絕對值是減小的（直到0），因此越靠近極值點 $\Delta(x)$  越小
- 牛頓法：目標 $\nabla f(\mathbf {\vec x})=0$ 。在一維情況下就是求 $f^\prime (x)=0$ 。牛頓法的方法是： $x=x^{<k>}$  $y=f^{\prime}(x)$ 切線，該切線過 $(x^{<k>},f^{\prime}(x^{<k>}))$ 。該切線 $x$ 軸上的交點就是

\[x^{<k+1>}=x^{<k>}-\frac {f^{\prime}(x^{<k>})}{f^{\prime\prime}(x^{<k>})}$$ 推廣到多維情況下就是： $$\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\mathbf H_k^{-1}\mathbf {\vec g}_k\]

當位於一個極小值點附近時，牛頓法比梯度下降法能更快地到達極小值點。
- 如果在一個鞍點附近，牛頓法效果很差；而梯度下降法此時效果較好（除非負梯度的方向剛好指向了鞍點）。
僅僅利用了梯度的優化算法（如梯度下降法）稱作一階優化算法；同時利用了海森矩陣的優化算法（如牛頓法）稱作二階優化算法
牛頓法算法：
- 輸入：
  - 目標函數 $f(\mathbf {\vec x})$
  - 梯度 $g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})$
  - 海森矩陣 $\mathbf H(\mathbf {\vec x})$
  - 精度要求 $e$
- 輸出 $f(\mathbf {\vec x})$ 的極小值 $\mathbf {\vec x}^*$
- 算法步驟：
  - 選取初始 $\mathbf {\vec x}^{<0>}\in \mathbb R^{n}$ , $k=0$
  - 計 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$
    - $|\mathbf {\vec g}_k| \lt e$ ，則停止計算，得到近似 $\mathbf {\vec x}=\mathbf {\vec x}^*$
    - $|\mathbf {\vec g}_k| \ge e$ ，則:
      - 計算 $\mathbf H_k=\mathbf H(\mathbf {\vec x}^{<k>})$ ，並求 $\mathbf {\vec p}_k,\mathbf H_k \mathbf {\vec p}_k=-\mathbf {\vec g}_k$
      - 置 $\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}+\mathbf {\vec p}_k$
      - 置 $k=k+1$ ，計算 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$ ，迭代
梯度下降法中，每一 $\mathbf {\vec x}$ 增加的方向一定是梯度相反的方 $- \epsilon_k \nabla_k$
- 增加的幅度由 $\epsilon_k$ 決定，若跨度過大容易引發震盪；
  而牛頓法中，每一 $\mathbf {\vec x}$ 增加的方向是梯度增速最大的反方 $- \mathbf H_k^{-1} \nabla_k$ （它通常情況下與梯度不共線）
- 增加的幅度已經包含在 $ \mathbf H_k^{-1}$ 中（也可以乘以學習率作為幅度的系數）

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/gradient_descent_newton.png)

深度學習中的目標函數非常復雜，無法保證可以通過上述優化算法進行優化。因此有時會限定目標函數具有Lipschitz連續，或者其導數Lipschitz連續。
- Lipschitz連續的定義：對於函數 $f$ ，存在一個Lipschitz常數 $\mathcal L$ ，使得

\[\forall \mathbf{\vec x},\forall \mathbf{\vec y}, |f(\mathbf{\vec x})-f(\mathbf{\vec y})| \le \mathcal L ||\mathbf{\vec x}-\mathbf{\vec y}||_2 \]

- `Lipschitz`連續的意義是：輸入的一個很小的變化，會引起輸出的一個很小的變化。

與之相反的是：輸入的一個很小的變化，會引起輸出的一個很大的變化

凸優化在某些特殊的領域取得了巨大的成功。但是在深度學習中，大多數優化問題都難以用凸優化來描述。
凸優化的重要性在深度學習中大大降低。凸優化僅僅作為一些深度學習算法的子程序。

五、擬牛頓法

5.1 原理

在牛頓法的迭代中，需要計算海森矩陣的逆矩 $\mathbf H^{-1}$ ，這一計算比較復雜。
- 可以考慮用一個 $n$ 階矩陣 $\mathbf G_k=G(\mathbf {\vec x}^{<k>})$ 來近似代替 $\mathbf H^{-1}_k=H^{-1}(\mathbf {\vec x}^{<k>})$ 。
先看海森矩陣滿足的條件 $\mathbf {\vec g}_{k+1}-\mathbf {\vec g}_k=\mathbf H_k (\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>})$
- 令 $\mathbf {\vec y}_k=\mathbf {\vec g}_{k+1}-\mathbf {\vec g}_k, \vec \delta_k=\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>}$ 則有 $\mathbf {\vec y}_k=\mathbf H_k \vec \delta_k$ ，或者 $\mathbf H_k^{-1}\mathbf {\vec y}_k=\vec \delta_k$ 。這稱為擬牛頓條件
- 根據牛頓法的迭代: $\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\mathbf H_k^{-1}\mathbf {\vec g}_k$ ，將 $f(\mathbf {\vec x})$ 在 $\mathbf {\vec x}^{<k>}$ 的一階泰勒展開：

\[ f(\mathbf {\vec x}^{<k+1>})=f(\mathbf {\vec x}^{<k>})+f'(\mathbf {\vec x}^{<k>})(\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>})\\ =f(\mathbf {\vec x}^{<k>})+\mathbf {\vec g}_k^{T}(-\mathbf H_k^{-1}\mathbf {\vec g}_k)=f(\mathbf {\vec x}^{<k>})-\mathbf {\vec g}_k^{T}\mathbf H^{-1}_k\mathbf {\vec g}_k$$ $\mathbf H_k$ 是正定矩陣時，總 $f(\mathbf {\vec x}^{<k+1>})<f(\mathbf {\vec x}^{<k>})$ ，因此每次都是沿着函數遞減的方向迭代 3. 擬牛頓法如果選 $\mathbf G_k$ 作 $\mathbf H_k^{-1}$ 的近似時 $\mathbf G_k$ 同樣要滿足兩個條件： - $\mathbf G_k$ 必須是正定的 - $\mathbf G_k$ 滿足擬牛頓條件 $\mathbf G_{k+1}\mathbf {\vec y}_k=\vec \delta_k$ > 因 $\mathbf G_0$ 是給定的初始化條件，所以下標 $k+1$ 開始按照擬牛頓條件，在每次迭代中可以選擇更新矩 $\mathbf G_{k+1}=\mathbf G_k+\Delta \mathbf G_k$ 4. 正定矩陣定義： $\mathbf M$ $n\times n$ 階方陣，如果對任何非零向 $\mathbf {\vec x}$ ，都 $\mathbf {\vec x}^{T} \mathbf M \mathbf {\vec x} \gt 0$ ，就 $\mathbf M$ 正定矩陣 - 正定矩陣判定： - 判定定理1：對稱陣 $\mathbf M$ 為正定的充分必要條件是 $\mathbf M$ 的特征值全為正。 - 判定定理2：對稱陣 $\mathbf M$ 為正定的充分必要條件是 $\mathbf M$ 的各階順序主子式都為正。 - 判定定理3：任意陣 $\mathbf M$ 為正定的充分必要條件是 $\mathbf M$ 合同於單位陣。 - 正定矩陣的性質： - 正定矩陣一定是非奇異的。奇異矩陣的定義：若 $n\times n$ 階矩陣 $\mathbf M$ 為奇異陣，則其的行列式為零，即 $|\mathbf M|=0$ 。 - 正定矩陣的任一主子矩陣也是正定矩陣。 - 若 $\mathbf M$ $n\times n$ 階對稱正定矩陣，則存在唯一的主對角線元素都是正數的下三角陣 $\mathbf L$ ，使得 $\mathbf M=\mathbf L\mathbf L^{T}$ ，此分解式稱為正定矩陣的喬列斯基（`Cholesky`）分解。 - 若 $\mathbf M$ 為 $n\times n$ 階正定矩陣，則 $\mathbf M$ 為 $n\times n$ 階可逆矩陣。 - 正定矩陣在某個合同變換下可化為標准型，即對角矩陣。 - 所有特征值大於零的對稱矩陣也是正定矩陣。 5. 合同矩陣：兩個實對稱矩 $\mathbf A$ $\mathbf B$ 是合同的，當且僅當存在一個可逆矩 $\mathbf P$ ，使 $\mathbf A=\mathbf P^{T}\mathbf B\mathbf P$ - $\mathbf A$ 的合同變換：對某個可逆矩陣 $\mathbf P$ ，對 $\mathbf A$ 執行 $\mathbf P^{T}\mathbf A\mathbf P$ ### 5.2 DFP 算法 1. DFP算法(`Davidon-Fletcher-Powell`)選 $\mathbf G_{k+1}$ 的方法是：假設每一步迭代 $\mathbf G_{k+1}$ 是 $\mathbf G_k$ 加上兩個附加項構成 $\mathbf G_{k+1}=\mathbf G_k+\mathbf P_k+\mathbf Q_k$ ，其 $\mathbf P_k,\mathbf Q_k$ 是待定矩陣。此時有 $\mathbf G_{k+1}\mathbf {\vec y}_k=\mathbf G_k\mathbf {\vec y}_k+\mathbf P_k\mathbf {\vec y}_k+\mathbf Q_k\mathbf {\vec y}_k$ 。為了滿足擬牛頓條件，可以取 $\mathbf P_k\mathbf {\vec y}_k=\vec \delta_k,\quad \mathbf Q_k\mathbf {\vec y}_k =-\mathbf G_k\mathbf {\vec y}_k$ 。 2. 這樣 $\mathbf P_k,\mathbf Q_k$ 不止一個。例如取 $$\mathbf P_k=\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k},\quad \mathbf Q_k=-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T}\mathbf G_k \mathbf {\vec y}_k}$$ > 這 $\vec \delta_k,\mathbf {\vec y}_k$ 都是列向量則迭代公式為： $$\mathbf G_{k+1}=\mathbf G_k+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T} \mathbf G_k \mathbf {\vec y}_k}\]

> 其中的向 $\vec \delta_k,\mathbf {\vec y}_k$ 都是列向量

可以證明，如果初始矩 $\mathbf G_0$ 是正定的，則迭代過程中每個矩 $\mathbf G_k$ 都是正定的
DFP算法：
- 輸入：
  - 目標函數 $f(\mathbf {\vec x})$
  - 梯度 $g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})$
  - 精度要求 $e$
- 輸出 $f(\mathbf {\vec x})$ 的極小值 $\mathbf {\vec x}^*$
- 算法步驟：
  - 選取初始 $\mathbf {\vec x}^{<0>}\in \mathbb R^{n}$ , $\mathbf G_0$ 為正定對稱矩陣， $k$ =0
  - 計 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$
    - $|\mathbf {\vec g}_k| \lt e$ ，則停止計算，得到近似 $\mathbf {\vec x}=\mathbf {\vec x}^*$
    - $|\mathbf {\vec g}_k| \ge e$ ，則:
      - 計算 $\mathbf {\vec p}_k=-\mathbf G_k\mathbf {\vec g}_k$
      - 一維搜索：求 $\epsilon_k$ ： $\epsilon_k=\min_{\epsilon \ge 0}f(\mathbf {\vec x}^{<k>}+\epsilon\mathbf {\vec p}_k)$
      - 設置 $\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}+\epsilon_k\mathbf {\vec p}_k$
      - 計算 $\mathbf {\vec g}_{k+1}=g(\mathbf {\vec x}^{<k+1>})$ 。若 $|\mathbf {\vec g}_{k+1}| \lt \varepsilon$ ，則停止計算，得到近似解 $\mathbf {\vec x}=\mathbf {\vec x}^*$
      - 否則計算 $\mathbf G_{k+1}$ ，置 $k=k+1$ ，計算 $\mathbf {\vec p}_k=-\mathbf G_k\mathbf {\vec g}_k$ 迭代
DFP算法中，每一 $\mathbf {\vec x}$ 增加的方向 $-\mathbf G_k \nabla_k$ 的方向。增加的幅度 $\epsilon_k$ 決定，若跨度過大容易引發震盪

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/gradient_descent_newton_dfp.png)

5.2 BFGS 算法

BFGS是最流行的擬牛頓算法。DFP算法中， $\mathbf G_k$ 逼 $\mathbf H^{-1}$ 。換個角度可以用矩 $\mathbf B_k$ 逼近海森矩 $\mathbf H$ 。此時對應的擬牛頓條件為 $\mathbf B_{k+1}\vec \delta_k=\mathbf {\vec y}_k$ 。

因 $\mathbf B_0$ 是給定的初始化條件，所以下標 $k+1$ 開始

令 $\mathbf B_{k+1}=\mathbf B_k+\mathbf P_k+\mathbf Q_k$ ，有 $\mathbf B_{k+1}\vec \delta_k=\mathbf B_k\vec \delta_k+\mathbf P_k\vec \delta_k+\mathbf Q_k\vec \delta_k$
可以 $\mathbf P_k\vec \delta_k=\mathbf {\vec y}_k,\mathbf Q_k\vec \delta_k=-\mathbf B_k\vec \delta_k$ 。尋找合適 $\mathbf P_k,\mathbf Q_k$ ，可以得到BFGS算法矩陣 $\mathbf B_{k+1}$ 的迭代公式：

其中的向 $\vec \delta_k,\mathbf {\vec y}_k$ 都是列向量

可以證明， $\mathbf B_0$ 是正定的，則迭代過程中每個矩 $\mathbf B_k$ 都是正定的。
BFGS算法：
- 輸入：
  - 目標函數 $f(\mathbf {\vec x})$
  - 梯度 $g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})$
  - 精度要求 $\ e$
- 輸出 $f(\mathbf {\vec x})$ 的極小值 $\mathbf {\vec x}^*$
- 算法步驟：
  - 選取初始 $\mathbf {\vec x}^{<0>}\in \mathbb R^{n}$ , $\mathbf B_0$ 為正定對稱矩陣， $k$ =0
  - 計 $\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})$
    - $|\mathbf {\vec g}_k| \lt e$ ，則停止計算，得到近似 $\mathbf {\vec x}=\mathbf {\vec x}^*$
    - $|\mathbf {\vec g}_k| \ge e$ ，則:
      - $\mathbf B_k\mathbf {\vec p}_k=-\mathbf {\vec g}_k$ 求 $\mathbf {\vec p}_k$
      這里表面上看需要對矩陣求逆。但是實際 $\mathbf B_k^{-1}$ 有迭代公式。根據Sherman-Morrison公式以 $\mathbf B_k$ 的迭代公式，可以得 $\mathbf B_k^{-1}$ 的迭代公式
      - 一維搜索： $\epsilon_k$ $\epsilon_k=\min_{\epsilon \ge 0}f(\mathbf {\vec x}^{<k>}+\epsilon\mathbf {\vec p}_k)$
      - 設 $\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}+\epsilon_k\mathbf {\vec p}_k$
      - 計 $\mathbf {\vec g}_{k+1}=g(\mathbf {\vec x}^{<k+1>})$ 。 $|\mathbf {\vec g}_{k+1}| \lt e$ ，則停止計算，得到近似 $\mathbf {\vec x}=\mathbf {\vec x}^*$
      - 否則計算，置 $=k+1$ 。 $\mathbf B_k\mathbf {\vec p}_k=-\mathbf {\vec g}_k$ 求 $\mathbf {\vec p}_k$ ，迭代
BFPS算法中，每一 $\mathbf {\vec x}$ 增加的方向 $-\mathbf B_k^{-1} \nabla_k$ 的方向。增加的幅度 $\epsilon_k$ 決定，若跨度過大容易引發震盪

![](http://www.huaxiaozhuan.com/數學基礎/imgs/numerical/gradient_descent_newton_dfp_bfgs.png)

5.3 Broyden 類算法

若 $\mathbf G_k=\mathbf B_k^{-1},\mathbf G_{k+1}=\mathbf B_{k+1}^{-1}$ ，則對式子

\[\mathbf B_{k+1}=\mathbf B_k+\frac{\mathbf {\vec y}_k\mathbf {\vec y}_k^{T}}{\mathbf {\vec y}_k^{T}\vec \delta_k}-\frac{\mathbf B_k\vec \delta_k\vec \delta_k^{T}\mathbf B_k}{\vec \delta_k^{T}\mathbf B_k\vec \delta_k}$$ 使用兩次`Sherman-Morrison`公式可得： $$\mathbf G_{k+1}=(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})\mathbf G_k(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})^{T}+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}$$ > 其中的向 $\vec \delta_k,\mathbf {\vec y}_k$ 都是列向量 2. 令DFP算法獲得 $\mathbf G_{k+1}$ 的迭代公式記作 $$\mathbf G^{DFP}=\mathbf G_k+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T} \mathbf G_k \mathbf {\vec y}_k}$$ 由BFGS算法獲得 $\mathbf G_{k+1}$ 的迭代公式記作 $$\mathbf G^{BFGS}=(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})\mathbf G_k(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})^{T}+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}$$ 他們都滿足擬牛頓條件，所以他們的線性組合 $\mathbf G_{k+1}= \alpha \mathbf G^{DFP}+(1- \alpha)\mathbf G^{BFGS}$ 也滿足擬牛頓條件，而且是正定的。其 $0 \le \alpha \le 1$ 。這樣獲得了一族擬牛頓法，稱為Broyden類算法 3. `Sherman-Morrison`公式：假 $\mathbf A$ $n$ 階可逆矩陣 $\mathbf {\vec u},\mathbf {\vec v}$ $n$ 維列向量， $\mathbf A+\mathbf {\vec u}\mathbf {\vec v}^{T}$ 也是可逆矩陣，則： $$(\mathbf A+\mathbf {\vec u}\mathbf {\vec v}^{T})^{-1}=\mathbf A^{-1}-\frac{\mathbf A^{-1}\mathbf {\vec u}\mathbf {\vec v}^{T}\mathbf A^{-1}}{1+\mathbf {\vec v}^{T}\mathbf A^{-1}\mathbf {\vec u}}\]

六、約束優化

6.1 原理

在有的最優化問題中，希望輸 $\mathbf {\vec x}$ 位於特定的集 $\mathbb S$ 中，這稱作約束優化問題。
- 集 $\mathbb S$ 內的點 $\mathbf {\vec x}$ 稱作可行解
- 集合 $\mathbb S$ 也稱作可行域。
約束優化的一個簡單方法是：對梯度下降法進行修改。
- 每次迭代后，將得到的新 $\mathbf {\vec x}$ 映射到集 $\mathbb S$ 中
- 如果使用線性搜索：則每次只搜索那些使得新 $\mathbf {\vec x}$ 位於集 $\mathbb S$ 中的那 $\epsilon$
  - 另一個做法：將線性搜索得到的新的 $\mathbf {\vec x}$ 映射到集合 $\mathbb S$ 中。
  - 或者：在線性搜索之前，將梯度投影到可行域的切空間內

6.2 KKT 方法

在約束最優化問題中，常常利用拉格朗日對偶性將原始問題轉換為對偶問題，通過求解對偶問題而得到原始問題的解。
約束最優化問題的原始問題：
假 $f(\mathbf {\vec x}),c_i(\mathbf {\vec x}),h_j(\mathbf {\vec x})$ 是定義 $\mathbb R^{n}$ 上的連續可微函數。考慮約束最優化問題：

\[\min_{\mathbf {\vec x} \in \mathbb R^{n}}f(\mathbf {\vec x})\\ s.t. \quad c_i(\mathbf {\vec x}) \le 0,i=1,2,\cdots,k \;;\quad h_j(\mathbf {\vec x})=0,j=1,2,\cdots,l$$ 可行域由等式和不等式確定 $$\mathbb S=\{\mathbf {\vec x} \mid c_i(\mathbf {\vec x}) \le 0,i=1,2,\cdots,k \;;\quad h_j(\mathbf {\vec x})=0,j=1,2,\cdots,l\}\]

6.2.1 原始問題

引入拉格朗日函數：

\[L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x})+\sum_{j=1}^{l}\beta_jh_j(\mathbf {\vec x})$$ 這 $\mathbf {\vec x}=(x^{(1)},x^{(2)},\cdots,x^{(n)})^{T} \in \mathbb R^{n}, \alpha_i,\beta_j$ 是拉格朗日乘子 $\alpha_i \ge 0$ - $L(\mathbf {\vec x}, \vec \alpha\vec\beta)$ 是 $\mathbf {\vec x}, \vec \alpha,\vec \beta$ 的多元非線性函數 2. 定義函數： $$\theta_P(\mathbf {\vec x})=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)$$ 其中下 $P$ 表示原始問題。則有： $$ \theta_P(\mathbf {\vec x})= \begin{cases} f(\mathbf {\vec x}), & \text{if $\mathbf {\vec x}$ statisfy original problem's constraint} \\ +\infty, & \text{or else.} \end{cases}\]

-  $\mathbf {\vec x}$ 滿足原問題的約束，則很容易證 $L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x}) \le f(\mathbf {\vec x})$ ，等號 $\alpha_i=0$ 時取到
-  $\mathbf {\vec x}$ 不滿足原問題的約束：
	- 若不滿足 $ c_i(\mathbf {\vec x}) \le 0$  ：設違反的為 $c_{i0}(\mathbf {\vec x}) \gt 0$ ，則令 $\vec \alpha_{i0} \rightarrow \infty$ ， $L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x})  \rightarrow \infty$  
	- 若不滿足  $ h_j(\mathbf {\vec x}) = 0$  ： 設違反的為 $h_{j0}(\mathbf {\vec x}) \ne 0$ ，則令 $\vec\beta_{j0}h_{j0}(\mathbf {\vec x}) \rightarrow \infty$ ， $L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x})+\vec\beta_{j0}h_{j0}(\mathbf {\vec x})  \rightarrow \infty$

考慮極小化問題：

\[\min_{\mathbf {\vec x}} \theta_P(\mathbf {\vec x})=\min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)$$ 則該問題是與原始最優化問題是等價的，即他們有相同的問題。 - $\min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)$ 稱為廣義拉格朗日函數的極大極小問題。 - 為了方便，定義原始問題的最優值為： $$p^{*}=\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})$$ #### 6.2.2 對偶問題 1. 對偶問題：定 $\theta_D(\vec \alpha,\vec\beta)=\min_\mathbf {\vec x} L(\mathbf {\vec x},\vec \alpha,\vec\beta)$ 。考慮極大 $\theta_D(\vec \alpha,\vec\beta)$ ，即： $$\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\]

- 問題 $\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)$  稱為廣義拉格朗日函數的極大極小問題。

可以將廣義拉格朗日函數的極大極小問題表示為約束最優化問題：

\[\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\\ s.t. \alpha_i \ge 0, i=1,2,\cdots,k$$ 稱為原始問題的對偶問題。 3. 定義對偶問題的最優值： $$d^*=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)\]

6.2.3 原始問題與對偶問題關系

定理一：若原問題和對偶問題具有最優值，則：

\[d^{*}=\max_{\vec \alpha,\vec\beta\;:\;\vec \alpha_i \ge 0}\min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta) \le \min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\vec \alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)=p^{*} \]

推論一： $\mathbf {\vec x}^{*}$ 為原始問題的可行解， $\theta_P(\mathbf {\vec x}^{*})$ 的值 $p^{*}$ $\vec \alpha^{*},\vec\beta^{*}$ 為對偶問題的可行解 $\theta_D(\vec \alpha^{*},\vec\beta^{*})$ 值 $d^{*}$ 。
如果 $p^{*}=d^{*}$ ， $\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}$ 分別為原始問題和對偶問題的最優解。
定理二：假設函 $f(\mathbf {\vec x})$ $c_i(\mathbf {\vec x})$ 為凸函數 $h_j(\mathbf {\vec x})$ 是仿射函數；並且假設不等式約 $c_i(\mathbf {\vec x})$ 是嚴格可行的，即存 $\mathbf {\vec x}$ ，對於所 $i$ $c_i(x) \lt 0$ 。
則存 $\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}$ ，使得 $\mathbf {\vec x}^{*}$ 是原始問 $\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})$ 的解 $\vec \alpha^{*},\vec\beta^{*}$ 是對偶問 $\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)$ 的解，並 $p^{*}=d^{*}=L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})$
定理三：假設函 $f(\mathbf {\vec x})$ $c_i(\mathbf {\vec x})$ 為凸函數 $h_j(\mathbf {\vec x})$ 是仿射函數；並且假設不等式約 $c_i(\mathbf {\vec x})$ 是嚴格可行的，即存 $\mathbf {\vec x}$ ，對於所 $i$ $c_i(x) \lt 0$ 。
則存 $\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}$ ，使 $\mathbf {\vec x}^{*}$ 是原始問 $\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})$ 的解 $\vec \alpha^{*},\vec\beta^{*}$ 是對偶問 $\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)$ 的解的充要條件是 $\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}$ 滿足下面的Karush-kuhn-Tucker(KKT)條件：

\[\nabla_\mathbf {\vec x}L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \nabla_\vec \alpha L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \nabla_\vec\beta L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \vec \alpha^{*}_ic_i(\mathbf {\vec x}^{*})=0,i=1,2,\cdots,k\\ c_i(\mathbf {\vec x}^{*})\le 0,i=1,2,\cdots,k\\ \vec \alpha^{*}_i \ge 0,i=1,2,\cdots,k\\ h_j(\mathbf {\vec x}^{*})= 0,j=1,2,\cdots,l\]

仿射函數：仿射函數即由1階多項式構成的函數。
一般形式 $f(\mathbf {\vec x}) = \mathbf A \mathbf {\vec x} + b$ ，這里 $\mathbf A$ 是一 $m\times k$ 矩陣 $\mathbf {\vec x}$ 是一 $k$ 維列向量 $b$ 是一 $m$ 維列向量
- 它實際上反映了一種從 $k$ 維到 $m$ 維的空間映射關系。
凸函數： $f$ 為定義在區 $I$ 上的函數，若 $I$ 上的任意兩 $\mathbf {\vec x}_1,\mathbf {\vec x}_2$ 和任意的實 $\lambda \in (0,1)$ ，總 $f(\lambda \mathbf {\vec x}_1+(1-\lambda)\mathbf {\vec x}_2) \ge \lambda f(\mathbf {\vec x}_1)+(1-\lambda)f(\mathbf {\vec x}_2)$ $f$ 稱 $I$ 上的凸函數

本文轉載自華校專老師博客，博客地址：http://www.huaxiaozhuan.com/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 有關機器學習的數學基礎機器學習 | 深度學習 | 人工智能的數學基礎掌握機器學習數學基礎之概率統計機器學習理論篇:機器學習的數學基礎【機器學習基礎】常見損失函數總結機器學習數學筆記|概率論基礎常見概型分布期望與方差【機器學習實戰】第1章機器學習基礎基於C#的機器學習--機器學習建模的基礎機器學習數學基礎：學習線性代數，千萬不要誤入歧途！推薦一個正確學習路線機器學習和深度學習入門總結