CS229 斯坦福大學機器學習復習材料(數學基礎) - 線性代數

本文轉載自查看原文 2021-08-06 13:57 192

CS229 斯坦福大學機器學習復習材料(數學基礎) - 線性代數

線性代數回顧與參考

線性代數回顧與參考

1 基本概念和符號

線性代數提供了一種緊湊地表示和運算“線性方程組”的方法。例如，考慮以下方程組：

$4x_{\scriptscriptstyle 1} - 5x_{\scriptscriptstyle 2} = -13\\ -2x_{\scriptscriptstyle 1} + 3x_{\scriptscriptstyle 2} = 9.$

這是兩個方程和兩個變量，正如你從高中代數中所知，你可以找到 $x_1$ 和 $x_2$ 的唯一解（除非方程以某種方式退化，例如，如果第二個方程只是第一個的倍數，但在上面的情況下，實際上只有一個唯一解）。在矩陣表示法中，我們可以更緊湊地表達：

$Ax= b$

其中

$A=\begin{bmatrix} 4 & -5 \\ -2 & 3 \end{bmatrix}, b=\begin{bmatrix} -13 \\ 9 \end{bmatrix}.$

我們可以看到，以這種形式分析線性方程有許多優點（包括明顯的節省空間）。

1.1 基本符號

我們使用以下符號：

用 $A \in \Bbb{R}^{m \times n}$ 表示一個 $m$ 行 $n$ 列的矩陣，其中 $A$ 的各項都是實數。
用 $\boldsymbol{x} \in \Bbb{R}^{n}$ 表示具有 $n$ 個元素的向量。按照慣例， $n$ 維向量。通常被認為是 $n$ 行 $1$ 列的矩陣，稱為列向量。如果我們想表示一個行向量: 具有 $1$ 行和 $n$ 列的矩陣 - 我們通常寫 $\boldsymbol{x}^T$ （這里 $\boldsymbol{x}^T$ 表示 $\boldsymbol{x}$ 的轉置，我們稍后將定義它）。
用 $x_i$ 表示向量 $\boldsymbol{x}$ 的第 $i$ 個元素：
$\boldsymbol{x}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}.$
我們用符號 $a_{\scriptscriptstyle ij}$ (or $A_{ij}$ , $A_{i,j}$ )表示 $A$ 的第 $i$ 行第 $j$ 列元素：

$A=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}.$
我們將 $A$ 的第 $j$ 列表示為 $a^j$ or $A_{:,j}$ ：

$A = \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ a^1 & a^2 & \cdots & a^n \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix}.$
我們將 $A$ 的第 $i$ 行表示為 $a_i^T$ or $A_{i,:}$ ：

$A = \begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}.$
在許多情況下，將矩陣視為列向量或行向量的集合是非常重要和方便的。一般來說，在數學上(和概念上)向量級別上的操作比標量級別上的操作會更簡潔。表示矩陣的列或行沒有通用約定，因此你可以使用任何符號明確定義它。

2 矩陣乘法

矩陣 $A \in \Bbb{R}^{m \times n}$ 和矩陣 $B \in \Bbb{R}^{n \times p}$ 的乘積仍然是一個矩陣 $C = AB \in \Bbb{R}^{m \times p}$ ，其中 $C_{ij} = \displaystyle\sum_{k=1}^n {A_{ik}B_{kj}}$ .
請注意，為了使矩陣乘積存在， $A$ 中的列數必須等於 $B$ 中的行數。有很多方法可以查看矩陣乘法，我們將從檢查一些特殊情況開始。

2.1 向量-向量乘法

給兩個向量 $\boldsymbol{x},\boldsymbol{y} \in \Bbb{R}^n$ , $\boldsymbol{x}^T \boldsymbol{y}$ 通常稱為向量的內積或者點積，結果是個實數：

$\boldsymbol{x}^T \boldsymbol{y} \in \Bbb{R} = \begin{bmatrix}x_1 & x_2 & \cdots & x_n\end{bmatrix} \begin{bmatrix}y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} = \sum_{i=1}^n{x_iy_i}$

請注意，內積實際上只是矩陣乘法的特例。 $\boldsymbol{x}^T \boldsymbol{y} = \boldsymbol{y}^T \boldsymbol{x}$ 始終成立。
給定向量 $\boldsymbol{x} \in \Bbb{R}^m , \boldsymbol{y} \in \Bbb{R}^n$ ( $m$ 不一定等於 $n$ ), $\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}$ 叫向量外積，它是一個矩陣，由 $(\boldsymbol{x} \boldsymbol{y}^T)_{ij} = x_iy_j$ 組成，也就是(i.e.)：

$\boldsymbol{x} \boldsymbol{y}^T \in \Bbb{R}^{m \times n}= \begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} \begin{bmatrix}y_1 & y_2 & \cdots & y_n\end{bmatrix}= \begin{bmatrix} x_1y_1 & x_1y_2 & \cdots & x_1y_n \\ x_2y_1 & x_2y_2 & \cdots & x_2y_n \\ \vdots & \vdots & \ddots & \vdots \\ x_my_1 & x_my_2 & \cdots & x_my_n \end{bmatrix}$

舉一個外積如何使用的一個例子：讓 $\boldsymbol{1}\in \Bbb{R}^{n}$ 表示一個 $n$ 維向量，其元素都等於 1，此外，考慮矩陣 $A \in \Bbb{R}^{m \times n}$ ，其列全部是某個向量 $\boldsymbol{x} \in R^{m}$ 。我們可以使用外積緊湊地表示矩陣 $A$ :

$A=\begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ x & x & \cdots & x \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix}= \begin{bmatrix} x_{1} & x_{1} & \cdots & x_{1} \\ x_{2} & x_{2} & \cdots & x_{2} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m} & x_{m} & \cdots & x_{m} \end{bmatrix}= \begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} \begin{bmatrix}1 & 1 & \cdots & 1\end{bmatrix}=\boldsymbol{x}\boldsymbol{1}^T$

2.2 矩陣-向量乘法

給定矩陣 $A \in \mathbb{R}^{m \times n}$ ，向量 $\boldsymbol{x} \in \mathbb{R}^{n}$ , 它們的積是一個向量 $\boldsymbol{y} = A\boldsymbol{x} \in \mathbb{R}^{m}$ 。有幾種方法可以查看矩陣向量乘法。

如果我們按行寫 $A$ ，那么我們可以表示 $A\boldsymbol{x}$ 為：

$\boldsymbol{y} = A\boldsymbol{x} = \begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}\boldsymbol{x}= \begin{bmatrix} a_1^T\boldsymbol{x} \\ a_2^T\boldsymbol{x} \\ \vdots \\ a_m^T\boldsymbol{x} \end{bmatrix}$

換句話說，第 $i$ 個 $y$ 的元素是 $A$ 的第 $i$ 行和 $\boldsymbol{x}$ 的內積，即： $y_i=a_{i}^{T} \boldsymbol{x}$ 。

同樣的，可以把 $A$ 寫成列的方式，如下：

$\boldsymbol{y} = A\boldsymbol{x} = \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ a^1 & a^2 & \cdots & a^n \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix} \begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}= [a^1]x_1 + [a^2]x_2 + \cdots +[a^n]x_n \label{1}\tag{1}$

換句話說， $\boldsymbol{y}$ 是 $A$ 的列的線性組合，其中線性組合的系數由 $\boldsymbol{x}$ 的元素給出。

到目前為止，我們一直是矩陣右乘一個列向量，但也可以是矩陣左乘一個行向量。如這樣表示： $\boldsymbol{y}^T = \boldsymbol{x}^TA$ 其中 $A \in \mathbb{R}^{m \times n}$ ， $\boldsymbol{x} \in \mathbb{R}^{m}$ ， $\boldsymbol{y} \in \mathbb{R}^{n}$ 。和以前一樣，我們可以用兩種可行的方式表達 $\boldsymbol{y}^T$ ，這取決於我們是否根據行或列表達 $A$ .

首先，我們把 $A$ 用列表示：

$\boldsymbol{y}^T = \boldsymbol{x}^TA = \boldsymbol{x}^T \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ a^1 & a^2 & \cdots & a^n \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix}= \begin{bmatrix}\boldsymbol{x}^Ta^1 & \boldsymbol{x}^Ta^2 & \cdots & \boldsymbol{x}^Ta^n \end{bmatrix}$

這表明 $\boldsymbol{y}^T$ 的第 $i$ 個元素等於 $\boldsymbol{x}$ 和 $A$ 的第 $i$ 列的內積。

最后，根據行表示 $A$ ，我們得到了向量-矩陣乘積的最終表示：

$\begin{aligned} \boldsymbol{y}^T &= \boldsymbol{x}^TA \\&= \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}\\&= x_1\begin{bmatrix}\text{\textemdash} & a_1^T & \text{\textemdash}\end{bmatrix}+ x_2\begin{bmatrix}\text{\textemdash} & a_2^T & \text{\textemdash}\end{bmatrix}+ \cdots + x_n\begin{bmatrix}\text{\textemdash} & a_n^T & \text{\textemdash}\end{bmatrix} \end{aligned}$

所以我們看到 $\boldsymbol{y}^T$ 是 $A$ 的行的線性組合，其中線性組合的系數由 $\boldsymbol{x}$ 的元素給出。

2.3 矩陣-矩陣乘法

有了這些知識，我們現在可以看看四種不同的（當然是等價的）查看矩陣與矩陣乘法 $C = AB$ 的方法。

首先，我們可以將矩陣-矩陣乘法視為一組向量-向量乘積。從定義中可以得出：最明顯的觀點是 $C$ 的( $i,j$ )元素等於 $A$ 的第 $i$ 行和 $B$ 的的 $j$ 列的內積。如下所示：

$C = AB = \begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix} \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ b^1 & b^2 & \cdots & b^p \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix}= \begin{bmatrix} a_1b_1 & a_1b_2 & \cdots & a_1b_p \\ a_2b_1 & a_2b_2 & \cdots & a_2b_p \\ \vdots & \vdots & \ddots & \vdots \\ a_mb_1 & a_mb_2 & \cdots & a_mb_p \end{bmatrix}$

這里的矩陣 $A \in \Bbb{R}^{m \times n} , B \in \Bbb{R}^{n \times p}$ ，向量 $a_i \in \Bbb{R}^n , b^j \in \Bbb{R}^n$ ，所以它們可以計算內積。當我們用行表示 $A$ 和用列表示 $B$ 時，這是最“自然”的表示。
另外，我們可以用列表示 $A$ ，用行表示 $B$ 。這種表示導致將 $AB$ 解釋為外積之和,這種表示則復雜得多。象征性地，

$C = AB = \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ a^1 & a^2 & \cdots & a^n \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix} \begin{bmatrix} \text{\textemdash} & b_1^T & \text{\textemdash} \\ \text{\textemdash} & b_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & b_n^T & \text{\textemdash} \\ \end{bmatrix}= \sum_{i=1}^n{a^ib_i^T}$

換句話說， $AB$ 等於所有的 $A$ 的第 $i$ 列和 $B$ 第 $i$ 行的外積的和。因此，在這種情況下， $a^i \in \mathbb{R}^ m$ 和 $b_i \in \mathbb{R}^p$ ，外積 $a^ib_i^T$ 的維度是 $m×p$ ，與 $C$ 的維度一致。

其次，我們還可以將矩陣-矩陣乘法視為一組矩陣-向量乘法。如果我們把 $B$ 用列表示，我們可以將 $C$ 的列視為 $A$ 和 $B$ 的列(矩陣-向量)的乘積。如下所示：

$C = AB = A \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ b^1 & b^2 & \cdots & b^p \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix}= \begin{bmatrix} \text{\textbar} & \text{\textbar} & & \text{\textbar} \\ Ab^1 & Ab^2 & \cdots & Ab^p \\ \text{\textbar} & \text{\textbar} & & \text{\textbar} \end{bmatrix} \label{2}\tag{2}$

這里 $C$ 的第 $i$ 列由矩陣-向量乘積給出，右邊的向量為 $c_i = Ab_i$ 。

最后，我們有類似的觀點，我們用行表示 $A$ ，並將 $C$ 的行視為 $A$ 的行和 $B$ 之間的矩陣-向量乘積。如下所示：

$C = AB = \begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}B= \begin{bmatrix} \text{\textemdash} & a_1^TB & \text{\textemdash} \\ \text{\textemdash} & a_2^TB & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^TB & \text{\textemdash} \\ \end{bmatrix}$

這里 $C$ 的第 $i$ 行由矩陣-向量乘積給出： $c_i^T = a_i^T B$ 。

將矩陣乘法剖析到如此大的程度似乎有點矯枉過正，特別是當所有這些觀點都緊跟在我們在本節開頭給出的初始定義（ $C=AB$ ）之后。

這些不同方法的直接優勢在於它們允許您在向量的級別/單位而不是標量上進行操作。為了完全理解線性代數而不會迷失在復雜的索引操作中，關鍵是操作盡可能大(向量而不是標量)的概念。^[1]

實際上所有的線性代數都是在處理某種矩陣乘法，多花一些時間對這里提出的觀點進行直觀的理解是非常必要的。

除此之外，你還應該了解一些更高級別的矩陣乘法的基本性質：

矩陣乘法結合律: $(AB)C = A(BC)$
矩陣乘法分配律: $A(B + C) = AB + AC$
矩陣乘法一般是不可交換的; 也就是說，通常 $AB \ne BA$ 。（例如，假設 $A \in \mathbb{R}^ {m \times n}，$ $B \in \mathbb{R}^ {n \times p}$ ，如果 $m$ 和 $q$ 不相等，矩陣乘積 $BA$ 甚至不存在！）

如果您不熟悉這些性質，請花點時間自己驗證它們。例如，為了檢查矩陣乘法的結合性，假設 $A \in \mathbb{R}^ {m \times n}，$ $B \in \mathbb{R}^ {n \times p}$ ， $C \in \mathbb{R}^ {p \times q}$ 。注意 $AB \in \mathbb{R}^ {m \times p}$ ，所以 $(AB)C \in \mathbb{R}^ {m \times q}$ 。類似地， $BC \in \mathbb{R}^ {n \times q}$ ，所以 $A(BC) \in \mathbb{R}^ {m \times q}$ 。因此，所得矩陣的維度一致。為了驗證矩陣乘法的結合性，檢查 $(AB)C$ 的( $i,j$ )元素是否等於 $A(BC)$ 的( $i,j$ )元素。我們可以使用矩陣乘法的定義直接驗證這一點：

$\begin{aligned} % aligned &= 等號對齊 ((A B) C)_{ij} &= \sum_{k=1}^p{(AB)_{ik}C_{kj}} = \sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}} \Bigg) C_{kj} \\ &=\sum_{k=1}^p \Bigg( \sum_{l=1}^n{A_{il}B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n \Bigg( \sum_{k=1}^p{A_{il}B_{lk}C_{kj}}\Bigg)\\ &=\sum_{l=1}^nA_{il}\Bigg(\sum_{k=1}^p{B_{lk}C_{kj}}\Bigg) = \sum_{l=1}^n{A_{il}(BC)_{lj}} = (A(BC))_{ij} \end{aligned}$

這里，第一個和最后兩個等式簡單地使用了矩陣乘法的定義，第三個和第五個等式使用了標量乘法對加法的分配性質，第四個等式使用了標量加法的交換性和結合性。這種通過簡化為簡單標量性質來證明矩陣性質的技術會經常出現，因此請確保您熟悉它。

3 操作及其性質

在本節中，我們將介紹矩陣和向量的幾種操作和性質。希望其中的大部分內容都可以幫您復習，此筆記可以作為參考。

3.1 單位矩陣和對角矩陣

單位矩陣用 $I \in \Bbb{R}^{n \times n}$ 表示，它是一個方陣，對角線的元素是 1，其余元素都是 0。可以這樣表示：

$I_{ij} = \begin{cases} 1 & i=j \\ 0 & i \neq j \end{cases}.$

對於所有矩陣 $A \in \mathbb{R}^ {m \times n}$ ，有：
$AI=A=IA$
注意，在某種意義上，上面單位矩陣的表示法是不明確的，因為它沒有指定 $I$ 的維數。通常， $I$ 的維數是從上下文推斷出來的，以便使矩陣乘法成為可能。例如，在上面的等式中， $AI = A$ 中的 $I$ 是 $n\times n$ 矩陣，而 $A = IA$ 中的 $I$ 是 $m\times m$ 矩陣。

對角矩陣的非對角元素全為 0。對角陣通常表示為： $D=diag(d_1, d_2,\cdots, d_n)$ ，其中：

$D_{ij} = \begin{cases} d_i & i=j \\ 0 & i \neq j \end{cases}.$

很明顯，單位矩陣 $I= diag(1, 1, \cdots , 1)$ 。

3.2 轉置

矩陣的轉置是指翻轉矩陣的行和列。給定一個矩陣 $A \in \Bbb{R}^{m \times n}$ ，它的轉置 $A^T \in \Bbb{R}^{n \times m}$ ,其中的元素為：

$(A^T)_{ij} = A_{ji}.$

事實上，我們在描述行向量時已經使用了轉置，因為列向量的轉置自然是行向量。

轉置有以下性質，且很容易驗證：

$(A^T)^T = A$
$(AB)^T = B^TA^T$
$(A+B)^T = A^T + B^T$

3.3 對稱矩陣

如果 $A = A^T$ ，那么方陣 $A \in \Bbb{R}^{n \times n}$ 是對稱的。

元素滿足 $a_{ij} = a_{ji} , \forall i,j$
$A = A^T$
對於任意方陣 $A$ ， $A + A^T$ 是對稱的
對角矩陣都是對稱矩陣

如果 $A = -A^T$ ，那么它就是反對稱的。

元素滿足 $a_{ij} = -a_{ji} , \forall i,j$ ,所以當 $i=j$ 時， $a_{ij} = 0$
$A,B$ 都為反對稱矩陣，則 $A \plusmn B$ 仍為反對稱矩陣^[2]
若 $A$ 為反對稱矩陣， $B$ 為對稱矩陣，則 $AB-BA$ 為對稱矩陣^[3]

很容易證明，對於任何矩陣 $A \in \mathbb{R}^ {n \times n}$ ，矩陣 $A + A^ T$ 是對稱的，矩陣 $A -A^T$ 是反對稱的^[2:1]。

由此得出，任意方矩陣 $A \in \mathbb{R}^ {n \times n}$ 可以表示為對稱矩陣和反對稱矩陣的和，所以：

$A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)$

事實證明，對稱矩陣在實踐中用到很多，它們有很多很好的性質，我們很快就會看到它們。
通常將大小為 $n$ 的所有對稱矩陣的集合表示為 $\mathbb{S}^n$ ，因此 $A \in \mathbb{S}^n$ 意味着 $A$ 是對稱的 $n\times n$ 矩陣。

3.4 矩陣的跡

方矩陣 $A \in \mathbb{R}^ {n \times n}$ 的跡，表示為 $\operatorname{tr} (A)$ （或者 $\operatorname{tr} A$ ，括號顯然是隱含的），是矩陣中對角元素的總和：

$\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}$

如 CS229 講義中所述，跡具有以下性質（如下所示）：

對於矩陣 $A \in \mathbb{R}^ {n \times n}$ ，則： $\operatorname{tr}A =\operatorname{tr}A^T$
對於矩陣 $A,B \in \mathbb{R}^ {n \times n}$ ，則： $\operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B$
對於矩陣 $A \in \mathbb{R}^ {n \times n}$ ， $t \in \mathbb{R}$ ，則： $\operatorname{tr}(tA) = t\operatorname{tr}A$ .
對於矩陣 $A$ , $B$ ， $AB$ 為方陣, 則： $\operatorname{tr}AB = \operatorname{tr}BA$
對於矩陣 $A$ , $B$ , $C$ , $ABC$ 為方陣(包含 1*1 的矩陣-標量), 則： $\operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB$ , 同理，更多矩陣的積也是有這個性質。

我們給出第四個性質的證明。假設 $A \in \mathbb{R}^ {m \times n}$ 和 $B \in \mathbb{R}^ {n \times m}$ （因此 $AB \in \mathbb{R}^ {m \times m}$ 是方陣）。觀察到 $BA \in \mathbb{R}^ {n \times n}$ 也是一個方陣，因此對它們進行跡的運算是有意義的。要證明 $\operatorname{tr}AB = \operatorname{tr}BA$ ，注意：

$\begin{aligned} \operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\ &=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A \end{aligned}$

這里，第一個和最后兩個等式使用了跡運算符和矩陣乘法的定義。重點在第四個等式,使用標量乘法的交換性來反轉每個乘積中的項的順序，以及標量加法的交換性和結合性來重新排列求和的順序。

3.5 范數

向量的范數 $\|x\|$ 是非正式度量的向量的“長度” 。例如，我們有常用的歐幾里德或 $\ell_{2}$ 范數，

$\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}$

注意： $\|x\|_{2}^{2}=x^{T} x$

更正式地，范數是滿足 4 個性質的函數（ $f : \mathbb{R}^{n} \rightarrow \mathbb{R}$ ）：

對於所有的 $x \in \mathbb{R}^ {n}$ , $f(x) \geq 0$ (非負性).
當且僅當 $x = 0$ 時， $f(x) = 0$ (確定性).
對於所有 $x \in \mathbb{R}^ {n}$ , $t\in \mathbb{R}$ ，則 $f(tx) = \left| t \right|f(x)$ (正齊次性).
對於所有 $x,y \in \mathbb{R}^ {n}$ , $f(x + y) \leq f(x) + f(y)$ (三角不等式)

其他范數的例子，如： $\ell_1$ 范數：

$\|x\|_{1}=\sum_{i=1}^{n}|x_{i}|$

和 $\ell_{\infty }$ 范數：

$\|x\|_{\infty}=\max_{i}\left|x_{i}\right|$

事實上，到目前為止所提出的所有三個范數都是 $\ell_p$ 范數族的例子，它們由實數 $p \geq 1$ 參數化，並定義為：

$\|x\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}$

也可以為矩陣定義范數，例如Frobenius范數:

$\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}$

還有很多其他范數，但它們超出了這個復習材料的范圍。

3.6 線性相關性和秩

一個向量集合 $\{ x_1,x_2, \cdots x_n \} \subset \mathbb{R}^m$ ，如果沒有向量可以表示為其余向量的線性組合，則稱稱該向量是線性無關的。相反，如果屬於該組的一個向量可以表示為其余向量的線性組合，則稱該向量是線性相關的。也就是說，如果：

$x_{j}=\sum_{i=1,i \neq j}^{n} \alpha_{i} x_{i}$

存在 $\alpha_1,\cdots \alpha_{n} \in \mathbb{R}$ ，那么向量 $x_1,x_2, \cdots x_n$ 是線性相關的; 否則，向量是線性無關的。
另一種線性相關的描述（存在不全為零的數 $\alpha_{i}$ ，使得等式成立）：

$\sum_{i=1}^{n} \alpha_{i} x_{i} = 0,\exists \alpha_i \neq 0$

例如，向量：

$x_{1}= \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} \quad x_{2}= \begin{bmatrix} 4 \\ 1 \\ 5 \end{bmatrix} \quad x_{3}= \begin{bmatrix} 2 \\ -3 \\ -1 \end{bmatrix}$

是線性相關的，因為： $x_3=-2x_1+x_2$ 。

矩陣 $A \in \mathbb{R}^{m \times n}$ 的列秩是構成線性無關集合的 $A$ 的最大列子集的大小。由於術語的多樣性，這通常簡稱為 $A$ 的線性無關列的數量。同樣，行秩是構成線性無關集合的 $A$ 的最大行數。
對於任何矩陣 $A \in \mathbb{R}^{m \times n}$ ，事實證明 $A$ 的列秩等於 $A$ 的行秩（盡管我們不會證明這一點），因此兩個量統稱為 $A$ 的秩，用 $\text{rank}(A)$ 表示。以下是秩的一些基本性質：

對於 $A \in \mathbb{R}^{m \times n}$ ， $\text{rank}(A) \leq min(m, n)$ ，如果 $\text(A) = \text{min} (m, n)$ ，則： $A$ 被稱作滿秩。
對於 $A \in \mathbb{R}^{m \times n}$ ， $\text{rank}(A) = \text{rank}(A^T)$
對於 $A \in \mathbb{R}^{m \times n}$ , $B \in \mathbb{R}^{n \times p}$ , $\text{rank}(AB) \leq \text{min} ( \text{rank}(A), \text{rank}(B))$
對於 $A,B \in \mathbb{R}^{m \times n}$ ， $\text{rank}(A + B) \leq \text{rank}(A) + \text{rank}(B)$

3.7 方陣的逆

方陣 $A \in \mathbb{R}^{n \times n}$ 的逆表示為 $A^{-1}$ ，並且是這樣的唯一矩陣:

$A^{-1}A=I=AA^{-1}$

請注意，並非所有矩陣都具有逆。例如，非方形矩陣根據定義沒有逆(存在偽逆^[4])。然而，對於一些方形矩陣 $A$ ， $A^{-1}$ 也可能不存在。特別是，如果 $A^{-1}$ 存在，我們說 $A$ 是可逆的或非奇異的，否則就是不可逆或奇異的^[5]。

為了使方陣 A 具有逆 $A^{-1}$ ，則 $A$ 必須是滿秩。我們很快就會發現，除了滿秩之外，還有許多其它的充分必要條件。
以下是逆的性質; 假設 $A,B \in \mathbb{R}^{n \times n}$ ，而且是非奇異的：

$(A^{-1})^{-1} = A$
$(AB)^{-1} = B^{-1}A^{-1}$
$(A^{-1})^{T} =(A^{T})^{-1}$ 因此，該矩陣通常表示為 $A^{-T}$ 。

作為如何使用逆的示例，考慮線性方程組， $Ax = b$ ，其中 $A \in \mathbb{R}^{n \times n}$ ， $x,b\in \mathbb{R}$ ，如果 $A$ 是非奇異的（即可逆的），那么 $x = A^{-1}b$ 。（如果 $A \in \mathbb{R}^{m \times n}$ ，不是方陣，這公式還有用嗎？ - 偽逆^[4:1]）

3.8 正交矩陣

如果 $x^Ty=0$ ，則兩個向量 $x,y\in \mathbb{R}^{n}$ 是正交的。如果 $\|x\|_2=1$ ，則向量 $x\in \mathbb{R}^{n}$ 被歸一化。如果一個方陣 $U\in \mathbb{R}^{n \times n}$ 的所有列彼此正交並被歸一化，則方陣 $U$ 是正交矩陣（注意在討論向量與矩陣時的意義不一樣，兩個向量正交只需要內積為 0，正交矩陣是各列相互正交並且被歸一化）。

它可以從正交性和正態性的定義中得出:

$U^ TU = I = U U^T$

換句話說，正交矩陣的逆是其轉置。注意，如果 $U$ 不是方陣，即， $U\in \mathbb{R}^{m \times n}, n < m$ ，但其列仍然是正交的，則 $U^TU = I$ ，但是 $UU^T \neq I$ 。所以正交矩陣一定是方陣。

正交矩陣的另一個好的特性是在具有正交矩陣的向量上操作不會改變其歐幾里德范數，即(i.e.):

$\|U x\|_{2}=\|x\|_{2} \label{3}\tag{3}$

對於任何 $x\in \mathbb{R}^n$ , $U\in \mathbb{R}^{n \times n}$ 是正交矩陣。

3.9 矩陣的值域和零空間

張成一個向量集合 $\{ x_1,x_2, \cdots x_n \}$ 可以表示為一個向量集合 $\{ x_1, \cdots x_n \}$ 的所以線性組合：

$\operatorname{span}(\{x_1, \cdots x_n \}) = \Bigg\{v:v=\sum_{i=1}^n{\alpha_i x_i}, \alpha_i \in \Bbb{R} \Bigg\}$

可以看到，如果 $\{x_{1}, \cdots x_{n}\}$ 是一組 $n$ 個線性無關的向量，其中每個 $x_i \in \mathbb{R}^{n}$ ，則 $\text{span}(\{x_{1}, \ldots x_{n}\})=\mathbb{R}^{n}$ 。換句話說，任何向量 $v\in \mathbb{R}^{n}$ 都可以寫成 $x_1$ 到 $x_n$ 的線性組合。
向量 $y\in \mathbb{R}^{m}$ 投影到 $\{x_{1}, \ldots x_{n}\}$ 所張成的空間（這里我們假設 $x_i \in \mathbb{R}^{m}$ ）得到向量 $v \in \operatorname{span}(\{x_{1}, \ldots, x_{n}\})$ ，由歐幾里德范數 $\|v - y\|_2$ 可以得知，這樣 $v$ 盡可能接近 $y$ 。

我們將投影表示為 $\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)$ ，並且可以將其正式定義為:

$\operatorname{Proj}\left(y ;\left\{x_{1}, \ldots x_{n}\right\}\right)=\operatorname{argmin}_{v \in \operatorname{span}\left(\left\{x_{1}, \ldots, x_{n}\right\}\right)}\|y-v\|_{2}$

矩陣 $A\in \mathbb{R}^{m \times n}$ 的值域（有時也稱為列空間），表示為 $\mathcal{R}(A)$ ，是 $A$ 的列所張成的空間。換句話說，

$\mathcal{R}(A)=\left\{v \in \mathbb{R}^{m} : v=A x, x \in \mathbb{R}^{n}\right\}$

做一些技術性的假設（即 $A$ 是滿秩且 $n <m$ ），向量 $y \in \mathbb{R}^{m}$ 到 $A$ 的值域的投影由下式給出:

$\operatorname{Proj}(y ; A)=\operatorname{argmin}_{v \in \mathcal{R}(A)}\|v-y\|_{2}=A\left(A^{T} A\right)^{-1} A^{T} y$

這個最后的方程應該看起來非常熟悉，因為它幾乎與我們在課程中（我們將很快再次得出）得到的公式：與參數的最小二乘估計一樣。
看一下投影的定義，顯而易見，這實際上是我們在最小二乘問題中最小化的目標（除了范數的平方這里有點不一樣，這不會影響找到最優解），所以這些問題自然是非常相關的。

當 $A$ 只包含一列時， $a \in \mathbb{R}^{m}$ ，這給出了向量投影到一條線上的特殊情況：

$\operatorname{Proj}(y ; a)=\frac{a a^{T}}{a^{T} a} y$

一個矩陣 $A\in \mathbb{R}^{m \times n}$ 的零空間 $\mathcal{N}(A)$ 是所有乘以 $A$ 時等於 0 向量的集合，即：

$\mathcal{N}(A)=\left\{x \in \mathbb{R}^{n} : A x=0\right\}$

注意， $\mathcal{R}(A)$ 中的向量的大小為 $m$ ，而 $\mathcal{N}(A)$ 中的向量的大小為 $n$ ，因此 $\mathcal{R}(A^T)$ 和 $\mathcal{N}(A)$ 中的向量的大小均為 $\mathbb{R}^{n}$ 。事實上，還有很多例子。證明：

$\left\{w : w=u+v, u \in \mathcal{R}\left(A^{T}\right), v \in \mathcal{N}(A)\right\}=\mathbb{R}^{n} \text { and } \mathcal{R}\left(A^{T}\right) \cap \mathcal{N}(A)=\{\mathbf{0}\}$

換句話說， $\mathcal{R}(A^T)$ 和 $\mathcal{N}(A)$ 是不相交的子集，它們一起跨越 $\mathbb{R}^{n}$ 的整個空間。這種類型的集合稱為正交補，我們用 $\mathcal{R}(A^T)= \mathcal{N}(A)^{\perp}$ 表示。

3.10 行列式

一個方陣 $A \in \mathbb{R}^{n \times n}$ 的行列式是函數 $\text {det}$ ： $\mathbb{R}^{n \times n} \rightarrow \mathbb{R}^{n}$ ，並且表示為 $\left| A \right|$ 或者 $\text{det} A$ （有點像跡運算符，我們通常省略括號）。在代數上，我們可以寫出 A 的行列式的明確公式，但不幸的是，這並不能直觀地理解它的含義。相反，我們將從提供行列式的幾何解釋開始，然后訪問其一些特定的代數性質。

給定一個矩陣：

$\begin{bmatrix} \text{\textemdash} & a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_n^T & \text{\textemdash} \\ \end{bmatrix}$

考慮通過采用 $A$ 行向量 $a_{1}, \ldots a_{n}\in \mathbb{R}^{n}$ 的所有可能線性組合形成的點 $S \subset \mathbb{R}^{n}$ 的集合，其中線性組合的系數都在 0 和 1 之間; 也就是說，集合 $S$ 是 $\text{span}(\{a_{1}, \ldots a_{n}\})$ 受到系數 $\alpha_{1}, \ldots \alpha_{n}$ 的限制的線性組合， $\alpha_1, \cdots ,\alpha_n$ 滿足 $0 \leq \alpha_{i} \leq 1, i=1, \ldots, n$ 。從形式上看，

$S=\left\{v \in \mathbb{R}^{n} : v=\sum_{i=1}^{n} \alpha_{i} a_{i} \text { where } 0 \leq \alpha_{i} \leq 1, i=1, \ldots, n\right\}$

事實證明， $A$ 的行列式的絕對值是對集合 $S$ 的“體積”的度量^[6]。

比方說：一個 $2 \times2$ 的矩陣(4)：

$A= \begin{bmatrix} 1 & 3 \\ 3 & 2 \end{bmatrix} \label{4}\tag{4}$

它的矩陣的行是：

$a_{1}=\left[\begin{array}{l}{1} \\ {3}\end{array}\right] \quad a_{2}=\left[\begin{array}{l}{3} \\ {2}\end{array}\right]$

對應於這些行對應的集合 $S$ 如圖 1 所示。對於二維矩陣， $S$ 通常具有平行四邊形的形狀。在我們的例子中，行列式的值是 $\left| A \right| = -7$ （可以使用本節后面顯示的公式計算），因此平行四邊形的面積為 7。（請自己驗證！）

在三維中，集合 $S$ 對應於一個稱為平行六面體的對象（一個有傾斜邊的三維框，這樣每個面都有一個平行四邊形）。行定義 $S$ 的 $3×3$ 矩陣 S 的行列式的絕對值給出了平行六面體的三維體積。在更高的維度中，集合 $S$ 是一個稱為 $n$ 維平行體的對象。

(0, 0)

a ₁

(1, 3)

a₂

(3, 2)

(4, 5)

(4, 5) Viewer does not support full SVG 1.1

圖 1：（4）中給出的 $2×2$ 矩陣 $A$ 的行列式的圖示。這里， $a_1$ 和 $a_2$ 是對應於 $A$ 行的向量，並且集合 $S$ 對應於平行四邊形區域。這個行列式的絕對值， $\left| \text{det} A \right| = 7$ ，即平行四邊形的面積。

在代數上，行列式滿足以下三個性質（所有其他性質都遵循這些性質，包括通用公式）：

單位陣的行列式為 1, $\left| I \right|= 1$ （幾何上，單位超立方體的體積為 1）。
給定一個矩陣 $A \in \mathbb{R}^{n \times n}$ , 如果我們將 $A$ 中的一行乘上一個標量 $t \in \mathbb{R}$ ，那么新矩陣的行列式是 $t\left| A \right|$

$\left|\begin{bmatrix} \text{\textemdash} & t a_1^T & \text{\textemdash} \\ \text{\textemdash} & a_2^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}\right| = t|A|$

幾何上，將集合 $S$ 的一個邊乘以系數 $t$ ，體積也會增加一個系數 $t$ 。
如果我們交換任意兩行在 $a_i^T$ 和 $a_j^T$ ，那么新矩陣的行列式是 $-\left| A \right|$ ，例如：
$\left|\begin{bmatrix} \text{\textemdash} & a_2^T & \text{\textemdash} \\ \text{\textemdash} & a_1^T & \text{\textemdash} \\ & \vdots & \\ \text{\textemdash} & a_m^T & \text{\textemdash} \\ \end{bmatrix}\right| = -|A|$
你一定很奇怪，滿足上述三個性質的函數的存在並不多。事實上，這樣的函數確實存在，而且是唯一的（我們在這里不再證明了）。

從上述三個性質中得出的幾個性質包括：

對於 $A \in \mathbb{R}^{n \times n}$ , $\left| A \right| = \left| A^T \right|$
對於 $A,B \in \mathbb{R}^{n \times n}$ , $\left| AB \right|= \left| A \right|\left| B \right|$
對於 $A \in \mathbb{R}^{n \times n}$ ,如果 $\left| A \right|= 0$ 有且只有當 $A$ 是奇異的（即不可逆）（如果 $A$ 是奇異的，那么它沒有滿秩，因此它的列是線性相關的。在這種情況下，集合 $S$ 對應於 $n$ 維空間中的“平面”，因此體積為零。）
對於 $A \in \mathbb{R}^{n \times n}$ 同時， $A$ 為非奇異的，則： $\left| A ^{−1}\right| = 1/\left| A \right|$

在給出行列式的一般定義之前，我們定義，對於 $A \in \mathbb{R}^{n \times n}$ ， $A_{\bcancel i, \bcancel j}\in \mathbb{R}^{(n-1) \times (n-1)}$ 是由於刪除第 $i$ 行和第 $j$ 列而產生的矩陣。行列式的一般（遞歸）公式是：

$\begin{aligned}|A| &=\sum_{i=1}^{n}(-1)^{i+j} a_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n) \\ &=\sum_{j=1}^{n}(-1)^{i+j} a_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } i \in 1, \ldots, n) \end{aligned}$

對於 $A \in \mathbb{R}^{1 \times 1}$ ，初始情況為 $\left| A \right|= a_{11}$ 。如果我們把這個公式完全展開為 $A \in \mathbb{R}^{n \times n}$ ，就等於 $n!$ （ $n$ 階乘）不同的項。因此，對於大於 $3×3$ 的矩陣，我們幾乎沒有明確地寫出完整的行列式方程。然而， $3×3$ 大小的矩陣的行列式方程是相當常見的，建議好好地了解它們：

$\begin{aligned} \left|\left[a_{11}\right]\right| &=a_{11} \\ \left|\left[\begin{array}{ll}{a_{11}} & {a_{12}} \\ {a_{21}} & {a_{22}}\end{array}\right]\right|&=a_{11} a_{22}-a_{12} a_{21} \\ \left|\left[\begin{array}{l}{a_{11}} & {a_{12}} & {a_{13}} \\ {a_{21}} & {a_{22}} & {a_{23}} \\ {a_{31}} & {a_{32}} & {a_{33}}\end{array}\right]\right| &= \begin{array}{c}{a_{11} a_{22} a_{33}+a_{12} a_{23} a_{31}+a_{13} a_{21} a_{32}} \\ {-a_{11} a_{23} a_{32}-a_{12} a_{21} a_{33}-a_{13} a_{22} a_{31}} \end{array} \end{aligned}$

矩陣 $A \in \mathbb{R}^{n \times n}$ 的經典伴隨矩陣（通常稱為伴隨矩陣^[7]）表示為 $\operatorname{adj}(A)$ ，並定義為：

$\operatorname{adj}(A) \in \mathbb{R}^{n \times n}, \quad(\operatorname{adj}(A))_{i j}=(-1)^{i+j}\left|A_{\backslash j, \backslash i}\right|$

（注意索引 $A_{\backslash j, \backslash i}$ 中的變化）。可以看出，對於任何非奇異 $A \in \mathbb{R}^{n \times n}$ ，

$A^{-1}=\frac{1}{|A|} \operatorname{adj}(A)$

雖然這是一個很好的“顯式”的逆矩陣公式，但我們應該注意，從數字上講，有很多更有效的方法來計算逆矩陣。

3.11 二次型和半正定矩陣

給定方矩陣 $A \in \mathbb{R}^{n \times n}$ 和向量 $x \in \mathbb{R}^{n}$ ，標量 $x^T Ax$ 被稱為二次型。寫得清楚些，我們可以看到：

$x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}$

注意：

$x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x$

小技巧：

$A = \frac{A+A^T}{2} + \frac{A-A^T}{2}\\, \\ x^{T} A x = x^{T}\frac{A+A^T}{2}x + x^{T}\frac{A-A^T}{2}x = x^{T}\frac{A+A^T}{2}x +0$

第一個等號的是因為是標量的轉置與自身相等，而第二個等號是因為是我們平均兩個本身相等的量。由此，我們可以得出結論，只有 $A$ 的對稱部分有助於形成二次型( $A+A^T$ 是對稱的)。出於這個原因，我們經常隱含地假設以二次型出現的矩陣是對稱陣。
我們給出以下定義：

對於所有非零向量 $x \in \mathbb{R}^n$ ， $x^TAx>0$ ，對稱陣 $A \in \mathbb{S}^n$ 為正定(PD)。這通常表示為 $A\succ0$ （或 $A>0$ ），並且通常將所有正定矩陣的集合表示為 $\mathbb{S}_{++}^n$ 。
對於所有向量 $x^TAx\geq 0$ ，對稱矩陣 $A \in \mathbb{S}^n$ 是半正定(PSD)。這寫為 $A \succeq 0$ （或 $A≥0$ ），並且所有半正定矩陣的集合通常表示為 $\mathbb{S}_+^n$ 。
同樣，對稱矩陣 $A \in \mathbb{S}^n$ 是負定(ND)，如果對於所有非零 $x \in \mathbb{R}^n$ ，則 $x^TAx <0$ 表示為 $A\prec0$ （或 $A <0$ ）。
類似地，對稱矩陣 $A \in \mathbb{S}^n$ 是半負定(NSD)，如果對於所有 $x \in \mathbb{R}^n$ ，則 $x^TAx \leq 0$ 表示為 $A\preceq 0$ （或 $A≤0$ ）。
最后，對稱矩陣 $A \in \mathbb{S}^n$ 是不定的，如果它既不是正半定也不是負半定，即，如果存在 $x_1,x_2 \in \mathbb{R}^n$ ，那么 $x_1^TAx_1>0$ 且 $x_2^TAx_2<0$ 。

很明顯，如果 $A$ 是正定的，那么 $−A$ 是負定的，反之亦然。同樣，如果 $A$ 是半正定的，那么 $−A$ 是是半負定的，反之亦然。如果果 $A$ 是不定的，那么 $−A$ 是也是不定的。

正定矩陣和負定矩陣的一個重要性質是它們總是滿秩，因此是可逆的。為了了解這是為什么，假設某個矩陣 $A \in \mathbb{S}^n$ 不是滿秩。然后，假設 $A$ 的第 $j$ 列可以表示為其他 $n-1$ 列的線性組合：

$a_{j}=\sum_{i \neq j} x_{i} a_{i}$

對於某些 $x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}$ 。設 $x_j = -1$ ，則：

$Ax=\sum_{i =1}^n x_{i} a_{i}=0$

但這意味着對於某些非零向量 $x$ ， $x^T Ax = 0$ ，因此 $A$ 必須既不是正定也不是負定。如果 $A$ 是正定或負定，則必須是滿秩。
最后，有一種類型的正定矩陣經常出現，因此值得特別提及。給定矩陣 $A \in \mathbb{R}^{m \times n}$ （不一定是對稱或偶數平方），矩陣 $G = A^T A \in \Bbb{R}^{n \times n}$ （有時稱為Gram 矩陣）總是半正定的。此外，如果 $m\geq n$ （同時為了方便起見，我們假設 $A$ 是滿秩,即 $\operatorname{rank}(A) = n$ ，則 $G = A^T A$ 是正定的。

$AA^T$ (即 Gram 矩陣)是半正定矩陣；協方差矩陣要是半正定矩陣
正定矩陣的所有特征值為正實數
半正定矩陣的所有特征值為非負實數
負定矩陣的所有特征值為負實數
半負定矩陣的所有特征值為非正實數
不定矩陣的特征值既有正數也有負數

3.12 特征值和特征向量

給定一個方陣 $A \in\mathbb{R}^{n\times n}$ ，我們認為在以下條件下， $\lambda \in\mathbb{C}$ 是 $A$ 的特征值， $x\in\mathbb{C}^n$ 是相應的特征向量^[8]：

$Ax=\lambda x,x \ne 0$

直觀地說，這個定義意味着將 $A$ 乘以向量 $x$ 會得到一個新的向量，該向量指向與 $x$ 相同的方向，但按系數 $\lambda$ 縮放。
值得注意的是，對於任何特征向量 $x\in\mathbb{C}^n$ 和標量 $c\in\mathbb{C}$ ， $A(cx)=cAx=c\lambda x=\lambda(cx)$ ， $cx$ 也是一個特征向量。因此，當我們討論與 $\lambda$ 相關的特征向量時，我們通常假設特征向量被標准化為長度為 1（這仍然會造成一些歧義，因為 $x$ 和 $−x$ 都是特征向量，但我們必須接受這一點）。

我們可以重寫上面的等式來說明 $(\lambda,x)$ 是 $A$ 的特征值-特征向量對：

$(\lambda I-A)x=0,x \ne 0$

但是 $(\lambda I-A)x=0$ 只有當 $(\lambda I-A)$ 有一個非空零空間時，同時 $(\lambda I-A)$ 是奇異的， $x$ 才具有非零解，即：

$|(\lambda I-A)|=0$

我們現在可以使用之前的行列式定義來展開這個表達式式 $|(\lambda I-A)|$ 為 $\lambda$ 的（非常大的）多項式，其中， $\lambda$ 的次數為 $n$ 。它通常被稱為矩陣 $A$ 的特征多項式。

然后我們找到這個特征多項式的 $n$ 個根（可能是復數），並用 $\lambda_1,\cdots,\lambda_n$ 表示。這些都是矩陣 $A$ 的特征值，但我們注意到它們可能不明顯。為了找到特征值 $\lambda_i$ 對應的特征向量，我們只需解線性方程 $(\lambda I-A)x=0$ ，因為 $(\lambda I-A)$ 是奇異的，所以保證有一個非零解（但也可能有多個或無窮多個解）。

應該注意的是，這不是實際用於數值計算特征值和特征向量的方法（記住行列式的完全展開式有 $n!$ 項），這是一個數學論證。

以下是特征值和特征向量的性質（所有假設在 $A \in\mathbb{R}^{n\times n}$ 具有特征值 $\lambda_1,\cdots,\lambda_n$ 的前提下）：

$A$ 的跡等於其特征值之和,也等於對角元素之和(跡的定義)

$\operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i} =\sum_{i=1}^{n} A_{ii}$
$A$ 的行列式等於其特征值的乘積

$|A|=\prod_{i=1}^{n} \lambda_{i}$
$A$ 的秩等於 $A$ 的非零特征值的個數
假設 $A$ 非奇異，其特征值為 $\lambda$ 和特征向量為 $x$ 。那么 $1/\lambda$ 是具有相關特征向量 $x$ 的 $A^{-1}$ 的特征值，即 $A^{-1}x=(1/\lambda)x$ 。（要證明這一點，取特征向量方程， $Ax=\lambda x$ ，兩邊都左乘 $A^{-1}$ ）
對角陣的特征值 $D=\operatorname{diag}(d_1,\cdots d_n)$ 實際上就是對角元素 $d_1,\cdots d_n$

3.13 對稱矩陣的特征值和特征向量

一般而言，一般方陣的特征值和特征向量的結構很難表征。幸運的是，在機器學習的大多數情況下，處理對稱實矩陣就足夠了，其特征值和特征向量具有顯着的性質。

在本節中，我們假設 $A$ 是實對稱矩陣, 具有以下性質：

$A$ 的所有特征值都是實數。我們用 $\lambda_1,\cdots,\lambda_n$ 表示。
存在一組特征向量 $u_1,\cdots,u_n$ ，對於所有 $i$ ， $u_i$ 是特征值 $\lambda_{i}$ 對應的特征向量。以及 $u_1,\cdots,u_n$ 是單位向量並且彼此正交^[9]。

設 $U$ 是包含 $u_i$ 作為列的正交矩陣^[10]：

$U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {u_{1}} & {u_{2}} & {\cdots} & {u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right] \label{5}\tag{5}$

設 $\Lambda= \operatorname{diag}(\lambda_1,\cdots,\lambda_n)$ 是包含 $\lambda_1,\cdots,\lambda_n$ 作為對角線上的元素的對角矩陣。使用 2.3 節的方程 $\eqref{2}$ 中的矩陣 - 矩陣向量乘法的方法，我們可以驗證：

$A U=\left[\begin{array}{cccc} { |} & { |} & {} & { |} \\ {A u_{1}} & {A u_{2}} & {\cdots} & {A u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]= \left[\begin{array}{ccc} { |} & { |} & { } & { |}\\ {\lambda_{1} u_{1}} & {\lambda_{2} u_{2}} & {\cdots} & {\lambda_{n} u_{n}} \\ { |} & { |} & {} & { |} \end{array}\right]= U \operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{n}\right)=U \Lambda$

考慮到正交矩陣 $U$ 滿足 $UU^T=I$ ，利用上面的方程，我們得到：

$A=AUU^T=U\Lambda U^T \label{6}\tag{6}$

這種 $A$ 的新的表示形式為 $U\Lambda U^T$ ，通常稱為矩陣 $A$ 的對角化。術語對角化是這樣來的：通過這種表示，我們通常可以有效地將對稱矩陣 $A$ 視為對角矩陣--這更容易理解--關於由特征向量 $U$ 定義的基礎，我們將通過幾個例子詳細說明。

背景知識：關於另一個基的向量。

任何正交矩陣 $U=\left[\begin{array}{cccc}{ |} & { |} & {} & { |} \\ {u_{1}} & {u_{2}} & {\cdots} & {u_{n}} \\ { |} & { |} & {} & { |}\end{array}\right]$ 定義了一個新的屬於 $\mathbb {R}^{n}$ 的基（坐標系），意義如下：對於任何向量 $x \in\mathbb{R}^{n}$ 都可以表示為 $u_1,\cdots,u_n$ 的線性組合，其系數為 $\hat x_1,\cdots,\hat x_n$ ：

$x=\hat x_1u_1+\cdots + \hat x_nu_n=U\hat x$

在第二個等式中，我們使用矩陣和向量相乘的方法,查看式 $\eqref{1}$ 。實際上，這種 $\hat x$ 是唯一存在的:

$x=U \hat{x} \Leftrightarrow U^{T} x=\hat{x}$

換句話說，向量 $\hat x=U^Tx$ 可以作為向量 $x$ 的另一種表示，與 $U$ 定義的基有關。

“對角化”矩陣向量乘法。通過上面的設置，我們將看到左乘矩陣 $A$ 可以被視為左乘對角矩陣，也就是特征向量組成的基。假設 $x$ 是一個向量， $\hat x$ 是以 $U$ 為基 $x$ 的表示。設 $z=Ax$ 為矩陣向量積。現在讓我們計算以 $U$ 為基來表示 $z$ ：
然后，再利用 $UU^T=U^TU=I$ 和 $A=AUU^T=U\Lambda U^T$ ，也就是式 $\eqref{6}$ ，我們得到：

$\hat{z}=U^{T} z=U^{T} A x=U^{T} U \Lambda U^{T} x=\Lambda \hat{x}=\left[\begin{array}{c}{\lambda_{1} \hat{x}_{1}} \\ {\lambda_{2} \hat{x}_{2}} \\ {\vdots} \\ {\lambda_{n} \hat{x}_{n}}\end{array}\right]$

我們可以看到，原始空間中的左乘矩陣 $A$ 等於左乘對角矩陣 $\Lambda$ 相對於新的基，即僅將每個坐標縮放相應的特征值。
在新的基上，矩陣多次相乘也變得簡單多了。例如，假設 $q=AAAx$ 。根據 $A$ 的元素導出 $q$ 的分析形式，使用原始的基可能是一場噩ڊ#x68A6;，但使用新的基就容易多了：

$\hat{q}= U^{T} q= U^{T} AAA x= U^{T} U \Lambda U^{T} U \Lambda U^{T} U \Lambda U^{T} x= \Lambda^{3} \hat{x}= \left[\begin{array}{c} {\lambda_{1}^{3} \hat{x}_{1}} \\ {\lambda_{2}^{3} \hat{x}_{2}} \\ {\vdots} \\ {\lambda_{n}^{3} \hat{x}_{n}} \end{array}\right] \label{7}\tag{7}$

“對角化”二次型。作為直接推論，二次型 $x^TAx$ 也可以在新的基上簡化。

$x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x}^T \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \label{8}\tag{8}$

(回想一下，在舊的表示法中， $x^{T} A x=\sum_{i=1, j=1}^{n} x_{i} x_{j} A_{i j}$ 涉及一個 $n^2$ 項的和，而不是上面等式中的 $n$ 項。)利用這個觀點，我們還可以證明矩陣 $A$ 的正定性完全取決於其特征值的符號：

如果所有的 $\lambda_i>0$ ，則矩陣 $A$ 正定的，因為對於任意的 $\hat x \ne 0$ , $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$ ^[11]
如果所有的 $\lambda_i\geq 0$ ，則矩陣 $A$ 是為正半定，因為對於任意的 $\hat x$ , $x^{T} A x=\sum*{i=1}^{n} \lambda*{i} \hat{x}\_{i}^{2} \geq 0$
同樣，如果所有 $\lambda_i<0$ 或 $\lambda_i\leq 0$ ，則矩陣 $A$ 分別為負定或半負定。
最后，如果 $A$ 同時具有正特征值和負特征值，比如 $\lambda_i>0$ 和 $\lambda_j<0$ ，那么它是不定的。這是因為如果我們讓 $\hat x$ 滿足 $\hat x_i=1 \text{ and } \hat x_k=0, \forall k\ne i$ ，那么 $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}>0$ ,同樣的我們讓 $\hat x$ 滿足 $\hat x_j=1 \text{ and } \hat x_k=0,\forall k\ne j$ ，那么 $x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2}<0$ ^[12]

特征值和特征向量經常出現的應用是最大化矩陣的某些函數。特別是對於矩陣 $A \in \mathbb{S}^{n}$ ，考慮以下最大化問題：

$\max _{x \in \mathbb{R}^{n}} \ x^{T} A x=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \quad \text { subject to }\|x\|_{2}^{2}=1 \label{9}\tag{9}$

也就是說，我們要找到（范數 1）的向量，它使二次型最大化。假設特征值的階數為 $\lambda_1 \geq \lambda _2 \geq \cdots \lambda_n$ ，此優化問題的最優值為 $\lambda_1$ ，且與 $\lambda_1$ 對應的任何特征向量 $u_1$ 都是最大值之一。（如果 $\lambda_1 > \lambda_2$ ，那么有一個與特征值 $\lambda_1$ 對應的唯一特征向量，它是上面那個優化問題 $\eqref{9}$ 的唯一最大值。）

我們可以通過使用對角化技術來證明這一點：注意，通過公式 $\|U x\|_{2}\overset{\eqref{3}}{=}\|x\|_{2}$ 推出 $\|x\|_{2}=\|\hat{x}\|_{2}$ ，並利用公式 $x^{T} A x=x^{T} U \Lambda U^{T} x=\hat{x}^T \Lambda \hat{x}=\sum*{i=1}^{n} \lambda*{i} \hat{x}\_{i}^{2} ,\text{也就是式}\eqref{8}$ ，我們可以將上面那個優化問題改寫為：

$\max _{\hat{x} \in \mathbb{R}^{n}}\ \hat{x}^{T} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \quad \text { subject to }\|\hat{x}\|_{2}^{2}=1$

然后，我們得到目標的上界為 $\lambda_1$ ：

$\hat{x}^{T} \Lambda \hat{x}=\sum_{i=1}^{n} \lambda_{i} \hat{x}_{i}^{2} \leq \sum_{i=1}^{n} \lambda_{1} \hat{x}_{i}^{2}=\lambda_{1}$

此外，設置 $\hat{x}=\left[\begin{array}{c}{1} \\ {0} \\ {\vdots} \\ {0}\end{array}\right]$ 可讓上述等式成立，這與設置 $x=u_1$ 相對應。

4.矩陣微積分

雖然前幾節中的主題通常在線性代數的標准課程中涵蓋，但一個似乎不經常涉及（我們將廣泛使用）的主題是微積分對向量設置的擴展。盡管我們使用的所有實際微積分都相對微不足道，但符號通常會使事情看起來比實際困難得多。在本節中，我們將介紹矩陣微積分的一些基本定義並提供一些示例。

4.1 梯度

假設 $f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}$ 是將維度為 $m \times n$ 的矩陣 $A\in \mathbb{R}^{m \times n}$ 作為輸入並返回實數值的函數。然后 $f$ 的梯度（相對於 $A\in \mathbb{R}^{m \times n}$ ）是偏導數矩陣，定義如下：

$\nabla_{A} f(A) \in \mathbb{R}^{m \times n}=\left[\begin{array}{cccc}{\frac{\partial f(A)}{\partial A_{11}}} & {\frac{\partial f(A)}{\partial A_{12}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{1n}}} \\ {\frac{\partial f(A)}{\partial A_{21}}} & {\frac{\partial f(A)}{\partial A_{22}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{2 n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial f(A)}{\partial A_{m 1}}} & {\frac{\partial f(A)}{\partial A_{m 2}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{m n}}}\end{array}\right]$

即， $m \times n$ 矩陣:

$\left(\nabla_{A} f(A)\right)_{i j}=\frac{\partial f(A)}{\partial A_{i j}}$

請注意， $\nabla_{A} f(A)$ 的維度始終與 $A$ 的維度相同。特殊情況，如果 $A$ 只是向量 $A\in \mathbb{R}^{n}$ ，則

$\nabla_{x} f(x)=\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]$

重要的是要記住，只有當函數是實值時，即如果函數返回標量值，才定義函數的梯度。例如， $A\in \mathbb{R}^{m \times n}$ 相對於 $x$ ，我們不能取 $Ax$ 的梯度，因為這個量(輸出)是向量值。

直接從偏導數的等價性質得出：

$\nabla_{x}(f(x)+g(x))=\nabla_{x} f(x)+\nabla_{x} g(x)$
$\text{For }t \in \mathbb{R},\nabla_{x}(t f(x))=t \nabla_{x} f(x)$

原則上，梯度是偏導數對多維變量函數的自然延伸。然而，在實踐中，由於符號的原因，使用梯度有時是很棘手的。例如，假設 $A\in \mathbb{R}^{m \times n}$ 是一個固定系數矩陣，假設 $b\in \mathbb{R}^{m}$ 是一個固定系數向量。設 $f: \mathbb{R}^{m} \rightarrow \mathbb{R}$ 為 $f(z)=z^Tz$ 定義的函數，因此 $\nabla_{z}f(z)=2z$ 。但現在考慮表達式，

$\nabla f(Ax)$

該表達式應該如何解釋？至少有兩種可能性：

在第一個解釋中，回想起 $\nabla_{z}f(z)=2z$ 。在這里，我們將 $\nabla f(Ax)$ 解釋為評估點 $Ax$ 處的梯度，因此:

$\nabla f(A x)=2(A x)=2 A x \in \mathbb{R}^{m}$

在第二種解釋中，我們將數量 $f(Ax)$ 視為輸入變量 $x$ 的函數。更正式地說，設 $g(x) =f(Ax)$ 。然后在這個解釋中:

$\nabla f(A x)=\nabla_{x} g(x) \in \mathbb{R}^{n}$

在這里，我們可以看到這兩種解釋確實不同。一種解釋產生 $m$ 維向量作為結果，而另一種解釋產生 $n$ 維向量作為結果( $x$ 的維度是 $n$ ，所以 $\nabla_{x} g(x)$ 也是 $n$ ，上面有講到)！我們怎么解決這個問題？

這里，關鍵是要明確我們要區分的變量。
在第一種情況下，我們將函數 $f$ 與其參數 $z$ 進行區分，然后替換參數 $Ax$ 。
在第二種情況下，我們將復合函數 $g(x)=f(Ax)$ 直接與 $x$ 進行微分。

我們將第一種情況表示為 $\nabla zf(Ax)$ ，第二種情況表示為 $\nabla xf(Ax)$ ^[13]。

保持符號清晰是非常重要的，以后完成課程作業時候你就會發現。

4.2 黑塞矩陣

假設 $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ 是一個函數，它接受 $\mathbb{R}^{n}$ 中的向量並返回實數。那么關於 $x$ 的黑塞矩陣（也有翻譯作海森矩陣），寫做： $\nabla_x ^2 f(A x)$ ，或者簡單地說， $H$ 是 $n \times n$ 的偏導數矩陣：

$\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}=\left[\begin{array}{cccc}{\frac{\partial^{2} f(x)}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{n}^{2}}}\end{array}\right]$

換句話說， $\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}$ ，其：

$\left(\nabla_{x}^{2} f(x)\right)_{i j}=\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}$

注意：黑塞矩陣通常是對稱陣：

$\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(x)}{\partial x_{j} \partial x_{i}}$

與梯度相似，只有當 $f(x)$ 為實值時黑塞矩陣才有定義。

很自然地認為梯度與向量函數的一階導數的相似，而黑塞矩陣與二階導數的相似（我們使用的符號也暗示了這種關系）。這種直覺通常是正確的，但需要記住以下幾個注意事項。
首先，對於一個變量 $f: \mathbb{R} \rightarrow \mathbb{R}$ 的實值函數，它的基本定義：二階導數是一階導數的導數，即：

$\frac{\partial^{2} f(x)}{\partial x^{2}}=\frac{\partial}{\partial x} \frac{\partial}{\partial x} f(x)$

然而，對於向量的函數，函數的梯度是一個向量，我們不能取向量的梯度，即:

$\nabla_{x} \nabla_{x} f(x)=\nabla_{x}\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]$

上面這個表達式沒有意義。因此，黑塞矩陣不是梯度的梯度。然而，下面這種情況卻這幾乎是正確的：如果我們看一下梯度 $\left(\nabla_{x} f(x)\right)_{i}=\partial f(x) / \partial x_{i}$ 的第 $i$ 個元素，並取關於於 $x$ 的梯度我們得到：

$\nabla_{x} \frac{\partial f(x)}{\partial x_{i}}=\left[\begin{array}{c}{\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{1}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{i} \partial x_{n}}}\end{array}\right]$

這是黑塞矩陣第 $i$ 行（列）,所以：

$\nabla_{x}^{2} f(x)=\left[\nabla_{x}\left(\nabla_{x} f(x)\right)_{1} \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{2} \quad \cdots \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{n}\right]$

簡單地說：我們可以說由於： $\nabla_{x}^{2} f(x)=\nabla_{x}\left(\nabla_{x} f(x)\right)^{T}$ ，只要我們理解，這實際上是取 $\nabla_{x} f(x)$ 的每個元素的梯度，而不是整個向量的梯度。

最后，請注意，雖然我們可以對矩陣 $A\in \mathbb{R}^{n}$ 取梯度，但對於這門課，我們只考慮對向量 $x \in \mathbb{R}^{n}$ 取黑塞矩陣。
這會方便很多（事實上，我們所做的任何計算都不要求我們找到關於矩陣的黑森方程），因為關於矩陣的黑塞方程就必須對矩陣所有元素求偏導數 $\partial^{2} f(A) /\left(\partial A_{i j} \partial A_{k \ell}\right)$ ，將其表示為矩陣相當麻煩。

4.3 二次函數和線性函數的梯度和黑塞矩陣

現在讓我們嘗試確定幾個簡單函數的梯度和黑塞矩陣。應該注意的是，這里給出的所有梯度都是CS229講義中給出的梯度的特殊情況。

對於 $x \in \mathbb{R}^{n}$ , 設 $f(x)=b^Tx$ 的某些已知向量 $b \in \mathbb{R}^{n}$ ，則：

$f(x)=\sum_{i=1}^{n} b_{i} x_{i}$

所以：

$\frac{\partial f(x)}{\partial x_{k}}=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} b_{i} x_{i}=b_{k}$

由此我們可以很容易地看出 $\nabla_{x} b^{T} x=b$ 。這應該與單變量微積分中的類似情況進行比較，其中 $\partial /(\partial x) a x=a$ 。
現在考慮 $A\in \mathbb{S}^{n}$ 的二次函數 $f(x)=x^TAx$ 。記住這一點：

$f(x)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}$

為了取偏導數，我們將分別考慮包括 $x_k$ 和 $x_2^k$ 因子的項：

$\begin{aligned} \frac{\partial f(x)}{\partial x_{k}} &=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \\ &=\frac{\partial}{\partial x_{k}}\left[\sum_{i \neq k} \sum_{j \neq k} A_{i j} x_{i} x_{j}+\sum_{i \neq k} A_{i k} x_{i} x_{k}+\sum_{j \neq k} A_{k j} x_{k} x_{j}+A_{k k} x_{k}^{2}\right] \\ &=\sum_{i \neq k} A_{i k} x_{i}+\sum_{j \neq k} A_{k j} x_{j}+2 A_{k k} x_{k} \\ &=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}=2 \sum_{i=1}^{n} A_{k i} x_{i} \end{aligned}$

最后一個等式，是因為 $A$ 是對稱的（我們可以安全地假設，因為它以二次形式出現）。注意， $\nabla_{x} f(x)$ 的第 $k$ 個元素是 $A$ 和 $x$ 的第 $k$ 行的內積。因此， $\nabla_{x} x^{T} A x=2 A x$ 。同樣，這應該提醒你單變量微積分中的類似事實，即 $\partial /(\partial x) a x^{2}=2 a x$ 。

最后，讓我們來看看二次函數 $f(x)=x^TAx$ 黑塞矩陣（顯然，線性函數 $b^Tx$ 的黑塞矩陣為零）。在這種情況下:

$\frac{\partial^{2} f(x)}{\partial x_{k} \partial x_{\ell}}=\frac{\partial}{\partial x_{k}}\left[\frac{\partial f(x)}{\partial x_{\ell}}\right]=\frac{\partial}{\partial x_{k}}\left[2 \sum_{i=1}^{n} A_{\ell i} x_{i}\right]=2 A_{\ell k}=2 A_{k \ell}$

因此，應該很清楚 $\nabla_{x}^2 x^{T} A x=2 A$ ，這應該是完全可以理解的（同樣類似於 $\partial^2 /(\partial x^2) a x^{2}=2a$ 的單變量事實）。

簡要概括起來：

$\nabla_{x} b^{T} x=b$
$\nabla_{x} x^{T} A x=2 A x$ (如果 $A$ 是對稱陣)
$\nabla_{x}^2 x^{T} A x=2 A$ (如果 $A$ 是對稱陣)

4.4 最小二乘法

讓我們應用上一節中得到的方程來推導最小二乘方程。假設我們得到矩陣 $A\in \mathbb{R}^{m \times n}$ （為了簡單起見，我們假設 $A$ 是滿秩）和向量 $b\in \mathbb{R}^{m}$ ，從而使 $b \notin \mathcal{R}(A)$ 。在這種情況下，我們將無法找到向量 $x\in \mathbb{R}^{n}$ ，由於 $Ax = b$ ，因此我們想要找到一個向量 $x$ ，使得 $Ax$ 盡可能接近 $b$ ，用歐幾里德范數的平方 $\|A x-b\|\_{2}^{2}$ 來衡量。

使用公式 $\|x\|^{2}=x^Tx$ ，我們可以得到：

$\begin{aligned}\|A x-b\|_{2}^{2} &=(A x-b)^{T}(A x-b) \\ &=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b \end{aligned}$

根據 $x$ 的梯度，並利用上一節中推導的性質：

$\begin{aligned} \nabla_{x}\left(x^{T} A^{T} A x-2 b^{T} A x+b^{T} b\right) &=\nabla_{x} x^{T} A^{T} A x-\nabla_{x} 2 b^{T} A x+\nabla_{x} b^{T} b \\ &=2 A^{T} A x-2 A^{T} b \end{aligned}$

將最后一個表達式設置為零，然后解出 $x$ ，得到了正規方程：

$x = (A^TA)^{-1}A^Tb$

這和我們在課堂上得到的相同。

4.5 行列式的梯度

現在讓我們考慮一種情況，我們找到一個函數相對於矩陣的梯度，也就是說，對於 $A\in \mathbb{R}^{n \times n}$ ，我們要找到 $\nabla_{A}|A|$ 。回想一下我們對行列式的討論：

$|A|=\sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n)$

所以：

$\frac{\partial}{\partial A_{k \ell}}|A|=\frac{\partial}{\partial A_{k \ell}} \sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right|=(-1)^{k+\ell}\left|A_{\backslash k,\backslash \ell}\right|=(\operatorname{adj}(A))_{\ell k}$

從這里可以知道，它直接從伴隨矩陣的性質得出：

$\nabla_{A}|A|=(\operatorname{adj}(A))^{T}=|A| A^{-T}$

現在我們來考慮函數 $f : \mathbb{S}_{++}^{n} \rightarrow \mathbb{R}$ ， $f(A)=\log |A|$ 。注意，我們必須將 $f$ 的域限制為正定矩陣，因為這確保了 $|A|>0$ ，因此 $|A|$ 的對數是實數。在這種情況下，我們可以使用鏈式法則（沒什么奇怪的，只是單變量演算中的普通鏈式法則）來看看：

$\frac{\partial \log |A|}{\partial A_{i j}}=\frac{\partial \log |A|}{\partial|A|} \frac{\partial|A|}{\partial A_{i j}}=\frac{1}{|A|} \frac{\partial|A|}{\partial A_{i j}}$

從這一點可以明顯看出：

$\nabla_{A} \log |A|=\frac{1}{|A|} \nabla_{A}|A|=A^{-1}$

我們可以在最后一個表達式中刪除轉置，因為 $A$ 是對稱的。注意與單值情況的相似性，其中 $\partial /(\partial x) \log x=1 / x$ 。

4.6 特征值優化

最后，我們使用矩陣演算以直接導致特征值/特征向量分析的方式求解優化問題。考慮以下等式約束優化問題：

$\max _{x \in \mathbb{R}^{n}} x^{T} A x \quad \text { subject to }\|x\|_{2}^{2}=1$

對於對稱矩陣 $A\in \mathbb{S}^{n}$ 。求解等式約束優化問題的標准方法是采用拉格朗日形式，一種包含等式約束的目標函數^[14]，在這種情況下，拉格朗日函數可由以下公式給出：

$\mathcal{L}(x, \lambda)=x^{T} A x-\lambda x^{T} x$

其中， $\lambda$ 被稱為與等式約束關聯的拉格朗日乘子。可以確定，要使 $x^{\star}$ 成為問題的最佳點，拉格朗日的梯度必須在 $x^\star$ 處為零（這不是唯一的條件，但它是必需的）。也就是說，

$\nabla_{x} \mathcal{L}(x, \lambda)=\nabla_{x}\left(x^{T} A x-\lambda x^{T} x\right)=2 A^{T} x-2 \lambda x=0$

請注意，這只是線性方程 $Ax =\lambda x$ 。這表明假設 $x^T x = 1$ ，可能最大化（或最小化） $x^T Ax$ 的唯一點是 $A$ 的特征向量。

名詞索引

column vector 列向量
 row vector 行向量
 inner product 內積
 dot product 點積
 outer product 外積
 linear combination 線性組合
 identity matrix 單位矩陣
 diagonal matrix 對角矩陣
 transpose 轉置
 symmetric matrix 對稱矩陣
 anti-symmetric matrix 反對稱矩陣
 trace 跡
 norm 范數
 (linearly) independent 線性無關
 (linearly) dependent 線性相關
 column rank 列秩
 row rank 行秩
 rank 秩
 full rank 滿秩
 inverse 逆
 invertible 可逆的
 non-singular 非奇異
 non-invertible 不可逆
 singular 奇異
 orthogonal 正交
 normalized 歸一化
 span 張成
 projection 投影
 range 值域
 columnspace 列空間
 nullspace 零空間
 orthogonal complements 正交補
 determinant 行列式
 classical adjoint(adjugate) matrix 經典伴隨矩陣
 adjoint(adjugate) matrix 伴隨矩陣
 minor 余子式
 cofactor 代數余子式
 cofactor matrix 代數余子式矩陣
 quadratic form 二次型
 positive definite(PD) 正定
 positive semidefinitee (PSD) 半正定
 negative definite (ND) 負定
 negative semidefinite(NSD) 半負定
 indefinite 不定
 Gram matrix 格拉姆矩陣
 eigenvalue 特征值
 eigenvector 特征向量
 Diagonalizing 對角化
 gradient 梯度
 Hessian 黑塞矩陣
 Lagrangian 拉格朗日

E.g., 如果你可以用矩陣或向量來寫出你所有的數學推導，那會比用標量元素來寫要好。 ↩︎
設 $A,B$ 為反對稱矩陣，即有 $A^T = -A , B^T=-B$ 則： $(A \plusmn B)^T = A^T \plusmn B^T = (-A) \plusmn (-B) = -(A \plusmn B)$ ↩︎ ↩︎
設 $A$ 為反對稱矩陣， $B$ 為對稱矩陣，即有 $A^T = -A , B^T=B$ 則：

$(AB - BA)^T = (AB)^T - (BA)^T = B^TA^T - A^TB^T = -BA + AB =(AB - BA)$ ↩︎
參考Moore–Penrose inverse ↩︎ ↩︎
很容易混淆並認為非奇異意味着不可逆。但實際上，意思正好相反！小心！ ↩︎
誠然，我們實際上並沒有定義我們在這里所說的“體積”是什么意思，但希望直覺應該足夠清楚。當 $n = 2$ 時，我們的“體積”概念對應於笛卡爾平面中 $S$ 的面積。當 $n = 3$ 時，“體積”對應於我們通常的三維物體體積概念。 ↩︎
$A_{ij}$ 的余子式（余子式其實是一個數）表示為 $M_{ij} = \left|A_{\backslash i, \backslash j}\right|$ ,就是刪除第 i 行和第 j 列而產生矩陣的行列式； $A_{ij}$ 的代數余子式（代數余子式也是一個數）表示為 $C_{ij} = (-1)^{i+j}M_{ij}$ ； $A$ 的余子矩陣(代數余子式矩陣,記為 cof)是一個 $n$ 階矩陣 $C$ ，使得其第 $i$ 行第 $j$ 列的元素是 $A$ 關於第 $i$ 行第 $j$ 列的代數余子式。則伴隨矩陣的定義如下：

$A^* = \operatorname{adj}(A) = C^T \in \mathbb{R}^{n \times n}, \quad(\operatorname{adj}(A))_{i j}=(-1)^{i+j}\left|A_{\backslash j, \backslash i}\right| =C_{ji}$

伴隨矩陣的一些性質(這里用 $A^*$ 表示 $\operatorname{adj}(A)$ )：
- $A$ 可逆當且僅當 $A^*$ 可逆
- $A$ 可逆，則 $A^* = |A|A^{-1}$
- $|A^*|=|A|^{n-1}$
- $(kA)^*=k^{n-1}A^*$
- $A$ 可逆，則 $(A^{-1})^* = (A^*)^{-1}$
- $(A^T)^* = (A^*)^T$
- $(AB)^* = B^*A^*$
- $\operatorname{rank}(A^*) = n, \operatorname{rank}(A) = n\\\operatorname{rank}(A^*) = 1, \operatorname{rank}(A) = n-1\\\operatorname{rank}(A^*) = 0, \operatorname{rank}(A) < n-1$
↩︎
請注意， $\lambda$ 和 $x$ 的元素實際上在 $C$ 中，即復數集，而不僅僅是實數；我們很快就會看到為什么這是必要的。現在不要擔心這個問題，你可以像實向量一樣思考復向量。 ↩︎
在數學上，我們有 $\forall{i},Au_i = \lambda_iu_i, \|u_i\|_2 = 1, \text{and } \forall{j} \neq i, u_i^Tu_j = 0$ 。此外，我們注意到任意矩陣 A（而這里我們主要描述對稱矩陣）的特征向量，並不是都滿足彼此正交，因為特征值可以是重復的，特征向量也是如此。 ↩︎
這里為了符號的簡單性，我們偏離了前幾節中矩陣列的符號約定(本來是應該用 $u^i$ 表示的，這里我們用 $u_i$ 來表示)。 ↩︎
注意 $\hat x \ne 0 \hArr x \ne 0$ ↩︎
注意 $x=U \hat x$ ,因此構造 $\hat x$ 給出來 $x$ 的隱式構造 ↩︎
我們必須接受這種符號的一個缺點是，在第一種情況下， $\nabla zf(Ax)$ 似乎我們正在對一個變量進行微分，而這個變量甚至沒有出現在被微分的表達式中！出於這個原因，第一種情況通常寫為 $\nabla f(Ax)$ ，並且可以理解我們對 $f$ 的參數進行微分這一事實。然而，第二種情況總是寫成 $\nabla xf(Ax)$ 。 ↩︎
如果您以前沒有見過拉格朗日，請不要擔心，因為我們將在后面的 CS229 中更詳細地介紹它們。 ↩︎

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 斯坦福CS229機器學習課程筆記一：線性回歸與梯度下降算法斯坦福CS229機器學習課程筆記二：GLM廣義線性模型與Logistic回歸 LR 算法總結--斯坦福大學機器學習公開課學習筆記斯坦福大學CS231n簡要筆記和課后作業斯坦福大學cs231n作業參考（中文版）斯坦福大學CS224d課程目錄 Deep Learning 12_深度學習UFLDL教程：Sparse Coding_exercise（斯坦福大學深度學習教程） Deep Learning 9_深度學習UFLDL教程：linear decoder_exercise（斯坦福大學深度學習教程） Deep Learning 11_深度學習UFLDL教程：數據預處理（斯坦福大學深度學習教程）機器學習數學基礎：學習線性代數，千萬不要誤入歧途！推薦一個正確學習路線