神經網絡與深度學習[邱錫鵬] 第二章習題解析


2-1

視角1:
一般平方損失函數的公式如下圖所示:

h表示的是你的預測結果,y表示對應的標簽,J就可以理解為用二范數的方式將預測和標簽的差距表示出來,
模型學習的過程就是優化權重參數,使得J達到近似最小值。
理論上這個損失函數是很有效果的,但是在實踐中卻又些問題。
它這個h是激活函數激活后的結果,激活函數通常是非線性函數,
例如sigmoid之類的,這就使得這個J的曲線變得很復雜,並不是凸函數,不利於優化,很容易陷入到局部最優解的情況。

視角2:
在使用One-Hot編碼表示分類問題的真實標簽的情況下,
我們使用平方損失函數計算模型的預測損失時會計算預測標簽中每一個類別的可能性與真實標簽之間的差距。
若我們想要得到更小的損失,則需要模型預測得到的預測標簽整體與One-Hot編碼的真實標簽相近,這對於模型來說計算精度要求過高、
在分類我們上我們往往只關注模型對數據的真實類別的預測概率而不關注對其他類別的預測概率。
所以對分類問題來說,平方損失函數不太適用。

2-2

2-3

2-4

2-5

2-6

2-7

2-8

2-9

擬合能力強的模型一般復雜度會比較高,容易過擬合,方差比較高。
如果限制模型復雜度,降低擬合能力,可能會欠擬合,偏差比較高.

2-10

簡單寫:

復雜寫:

2-11


當n增長時,計算壓力和參數空間會迅速增長。n越大,數據越稀疏。

2-12

微平均其實就是所有類別的准確率。即(TP + TN) / (TP + FP + TN + FN)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM