今天推導公式,發現居然有對矩陣的求導,狂汗--完全不會。不過還好網上有人總結了。吼吼,趕緊搬過來收藏備份。 基本公式:Y = A * X --> DY/DX = A'Y = X * A --> DY/DX = AY = A' * X * B --> DY/DX = A * B ...
隨機梯度下降法 SGD 是訓練深度學習模型最常用的優化方法。在前期文章中我們講了梯度是如何計算的,主要采用BP算法,或者說利用鏈式法則。但是深度學習模型是復雜多樣的,你不大可能每次都要自己使用鏈式法則去計算梯度,然后采用硬編程的方式實現。 而目前的深度學習框架其都是實現了自動求梯度的功能,你只關注模型架構的設計,而不必關注模型背后的梯度是如何計算的。不過,我們還是想說一說自動求導是如何實現的。 這 ...
2019-10-27 10:48 0 906 推薦指數:
今天推導公式,發現居然有對矩陣的求導,狂汗--完全不會。不過還好網上有人總結了。吼吼,趕緊搬過來收藏備份。 基本公式:Y = A * X --> DY/DX = A'Y = X * A --> DY/DX = AY = A' * X * B --> DY/DX = A * B ...
網上有一些向量求導的總結,把20多種情況一一考慮,很是麻煩,本文希望找出向量求導的基本法則。 向量求導與標量求導法則不同的是,向量的求導還要注意結果的排法問題。注意排法是因為當一個目標函數是多個成分相加時,如果不注意排法可能導致有些結果是行,有些是列,無法繼續進行運算。我總結的向量求導的基本推導 ...
目錄 一、BP原理及求導 二、softmax及求導 一、BP 1、為什么沿梯度方向是上升最快方向 根據泰勒公式對f(x)在x0處展開,得到f(x) ~ f(x0) + f'(x0)(x-x0), 故得到f(x) - f(x0) ~ f'(x0)(x-x0 ...
Sigmoid 公式: 導數: Tanh 公式: 導數: ...
在矩陣向量求導前4篇文章中,我們主要討論了標量對向量矩陣的求導,以及向量對向量的求導。本文我們就討論下之前沒有涉及到的矩陣對矩陣的求導,還有矩陣對向量,向量對矩陣求導這幾種形式的求導方法。 本文所有求導布局以分母布局為准,為了適配矩陣對矩陣的求導,本文向量對向量的求導也以分母布局 ...
目錄 符號定義 對 softmax 求導 對 cross-entropy 求導 對 softmax 和 cross-entropy 一起求導 References 在論文中看到對 softmax 和 cross-entropy 的求導,一臉懵逼 ...
機器學習算法推導--矩陣求導中為何會有“轉置”? 之前學習神經網絡推導的時候,發現在有的求導上最后結果需要轉置,而有的不需要,很困惑: 淺層神經網絡反向傳播的困惑 正向傳播: 反向傳播: 這里為什么要對W進行轉置操作?為什么別處有的地方就沒有轉置操作? 矩陣求導知識 ...