【邱希鵬】神經網絡與深度學習課后習題-chap2


1. 分析為什么平方損失函數不適用於分類問題.

答:

  • 分類問題中的標簽,是沒有連續的概念的。每個標簽之間的距離也是沒有實際意義的,所以預測值 和 標簽兩個向量之間的平方差這個值不能反應分類這個問題的優化程度。

  • 假設分類問題的類別是1,2,3

  • 那么對於一個真實類別為2的樣本X,模型的分類結果是 1 或 3,平方損失函數得到的結果都一樣。

  • 顯然,不適合

2. 計算其最優參數

在線性回歸中,如果我們給每個樣本 \(\left(\mathbf{x}^{(n)}, y^{(n)}\right)\) 賦予一個權重 \(r^{(n)}\),經驗風險函數為

\[\mathcal{R}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N} r^{(n)}\left(y^{(n)}-\mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}\right)^{2} \]

計算其最優參數 \(w^*\),並分析權重 \(r^{(n)}\) 的作用。

答:

\[\begin{array}{l} 令\ \frac{\partial R(w)}{\partial w}=-r x\left(y-x^{T} w\right)=0 \ \left. \\ w^{*}=(\sum_{n=1}^{N} x^{(n)}\left(x^{(n)}\right)^{T}\right)^{-1}\left(\sum_{n=1}^{N} r^{(n)} x^{(n)} y^{(n)}\right) \end{array} \]

\(r^{(n)}\): 為每個樣本都分配了權重,相當於對每個樣本都設置了不同的學習率,即,理解成對每個樣本重視程度不同

3. 證明矩陣的秩

在線性回歸中,如果樣本數量 N 小於特征數量 d+1,則 XX^T 的秩最大為 N。

答:

  • 已知定理:設 \(A, B\) 分別為 \(n \times m, m \times s\)的矩陣,則 \(rank(AB) \le min\{rank(A), rank(B)\}\)

  • \(X \in \mathbb{R}^{(d+1) \times N}, X^T \in \mathbb{R}^{N \times (d+1)}\)

    • \(rank(X) = rank(X^T) = min((d+1), N), N < d + 1, 可知 rank(X) = N\)
  • 可知 \(rank(X, X^T) \le {N, N} = N\)

4. 驗證嶺回歸

在線性回歸中,驗證嶺回歸的解為 結構風險最小化准則 下的最小二乘法估計,見公式(2.44)

答:
已知

\[R(w) = \frac{1}{2}||y - X^Tw||^2 + \frac{1}{2}\lambda ||w||^2 \\ w^* = (XX^T + \lambda I)^{-1}Xy \]

可得

\[\begin{aligned} \frac{\partial \mathcal{R}(\mathbf{w})}{\partial \mathbf{w}} &=\frac{1}{2} \frac{\partial\left\|\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right\|^{2}+\lambda\|\mathbf{w}\|^{2}}{\partial \mathbf{w}} \\ &=-X\left(\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right)+\lambda \mathbf{w} \end{aligned} \]

\(\frac{\partial}{\partial \mathrm{w}} \mathcal{R}(\mathbf{w})=0\) 可得

\[\begin{array}{c} -X Y+X X^{\mathrm{T}} \mathbf{w}+\lambda \mathbf{w}=0 \\ \left(X X^{\mathrm{T}}+\lambda I\right) \mathbf{w}=X Y \end{array} \]

\[\mathbf{w}^{*}=\left(X X^{\mathrm{T}}+\lambda I\right)^{-1} X \mathbf{y} \]

5. 最大似然估計

在線性回歸中,若假設標簽 \(y \sim \mathcal{N} \left(\mathbf{w}^{\mathrm{T}} \mathbf{x}, \beta\right)\) 並用最大似然估計來優化參數時,驗證最優參數為公式(2.51)的解。

已知

\[\log p(\mathbf{y} \mid X ; \mathbf{w}, \sigma)=\sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} \mid \mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}, \sigma^{2}\right) \]

\(\frac{\partial \log p(\mathbf{y} \mid X ; \mathbf{w}, \sigma)}{\partial \mathbf{w}}=0\),即有

\[\frac{\partial\left(\sum_{n=1}^{N}-\frac{\left(y^{(n)}-\mathbf{w}^{\mathrm{T}} \mathbf{x}^{(n)}\right)^{2}}{2 \beta}\right)}{\partial \mathbf{w}}=0 \]

\[\begin{array}{c} \frac{\partial \frac{1}{2}\left\|\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right\|^{2}}{\partial \mathbf{w}}=0 \\ -X\left(\mathbf{y}-X^{\mathrm{T}} \mathbf{w}\right)=0 \end{array}\]

\[\mathbf{w}^{M L}=\left(X X^{\mathrm{T}}\right)^{-1} X \mathbf{y} \]

6. 最大后驗估計


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM