1. 分析為什么平方損失函數不適用於分類問題.
答:
2. 計算其最優參數
在線性回歸中,如果我們給每個樣本 \(\left(\mathbf{x}^{(n)}, y^{(n)}\right)\) 賦予一個權重 \(r^{(n)}\),經驗風險函數為
\[\mathcal{R}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N} r^{(n)}\left(y^{(n)}-\mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}\right)^{2} \]
計算其最優參數 \(w^*\),並分析權重 \(r^{(n)}\) 的作用。
答:
\[\begin{array}{l} 令\ \frac{\partial R(w)}{\partial w}=-r x\left(y-x^{T} w\right)=0 \ \left. \\ w^{*}=(\sum_{n=1}^{N} x^{(n)}\left(x^{(n)}\right)^{T}\right)^{-1}\left(\sum_{n=1}^{N} r^{(n)} x^{(n)} y^{(n)}\right) \end{array} \]
\(r^{(n)}\): 為每個樣本都分配了權重,相當於對每個樣本都設置了不同的學習率,即,理解成對每個樣本重視程度不同。
3. 證明矩陣的秩
在線性回歸中,如果樣本數量 N 小於特征數量 d+1,則 XX^T 的秩最大為 N。
答:
-
已知定理:設 \(A, B\) 分別為 \(n \times m, m \times s\)的矩陣,則 \(rank(AB) \le min\{rank(A), rank(B)\}\)
-
而 \(X \in \mathbb{R}^{(d+1) \times N}, X^T \in \mathbb{R}^{N \times (d+1)}\)
- \(rank(X) = rank(X^T) = min((d+1), N), N < d + 1, 可知 rank(X) = N\)
-
可知 \(rank(X, X^T) \le {N, N} = N\)
4. 驗證嶺回歸
在線性回歸中,驗證嶺回歸的解為 結構風險最小化准則 下的最小二乘法估計,見公式(2.44)
答:
已知
\[R(w) = \frac{1}{2}||y - X^Tw||^2 + \frac{1}{2}\lambda ||w||^2 \\ w^* = (XX^T + \lambda I)^{-1}Xy \]
可得
\[\begin{aligned} \frac{\partial \mathcal{R}(\mathbf{w})}{\partial \mathbf{w}} &=\frac{1}{2} \frac{\partial\left\|\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right\|^{2}+\lambda\|\mathbf{w}\|^{2}}{\partial \mathbf{w}} \\ &=-X\left(\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right)+\lambda \mathbf{w} \end{aligned} \]
令 \(\frac{\partial}{\partial \mathrm{w}} \mathcal{R}(\mathbf{w})=0\) 可得
\[\begin{array}{c} -X Y+X X^{\mathrm{T}} \mathbf{w}+\lambda \mathbf{w}=0 \\ \left(X X^{\mathrm{T}}+\lambda I\right) \mathbf{w}=X Y \end{array} \]
即
\[\mathbf{w}^{*}=\left(X X^{\mathrm{T}}+\lambda I\right)^{-1} X \mathbf{y} \]
5. 最大似然估計
在線性回歸中,若假設標簽 \(y \sim \mathcal{N} \left(\mathbf{w}^{\mathrm{T}} \mathbf{x}, \beta\right)\) 並用最大似然估計來優化參數時,驗證最優參數為公式(2.51)的解。
已知
\[\log p(\mathbf{y} \mid X ; \mathbf{w}, \sigma)=\sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} \mid \mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}, \sigma^{2}\right) \]
令 \(\frac{\partial \log p(\mathbf{y} \mid X ; \mathbf{w}, \sigma)}{\partial \mathbf{w}}=0\),即有
\[\frac{\partial\left(\sum_{n=1}^{N}-\frac{\left(y^{(n)}-\mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}\right)^{2}}{2 \beta}\right)}{\partial \mathbf{w}}=0 \]
\[\begin{array}{c} \frac{\partial \frac{1}{2}\left\|\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right\|^{2}}{\partial \mathbf{w}}=0 \\ -X\left(\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right)=0 \end{array}\]
則
\[\mathbf{w}^{M L}=\left(X X^{\mathrm{T}}\right)^{-1} X \mathbf{y} \]
6. 最大后驗估計
