深度學習：Sigmoid函數與損失函數求導

本文轉載自查看原文 2017-10-16 14:49 7208 深度學習/ 人工智能

1、sigmoid函數

sigmoid函數，也就是s型曲線函數，如下：

函 數 ：

導 數 ：

上面是我們常見的形式，雖然知道這樣的形式，也知道計算流程，不夠感覺並不太直觀，下面來分析一下。

1.1 從指數函數到sigmoid

首先我們來畫出指數函數的基本圖形：

這里寫圖片描述

從上圖，我們得到了這樣的幾個信息，指數函數過(0,1)點，單調遞增/遞減，定義域為

這里寫圖片描述

如果直接把

1.2 對數函數與sigmoid

首先來看一下對數函數的圖像：

這里寫圖片描述

對數函數的圖像如上，單調遞減，有一個比較好的特性就是在

我們如何來衡量一個結果與實際計算值得差距呢？一種思路就是，如果結果越接近，差值就越小，反之越大，這個函數就提供了這樣一種思路，如果計算得到的值越接近1，那么那么表示與世界結果越接近，反之越遠，所以利用這個函數，可以作為邏輯回歸分類器的損失函數，如果所有的結果都能接近結果值，那么就越接近於0，如果所有的樣本計算完成以后，結果接近於0，就表示計算結果與實際結果非常相近。

2、sigmoid函數求導

sigmoid導數具體的推導過程如下：

3、神經網絡損失函數求導

神經網絡的損失函數可以理解為是一個多級的復合函數，求導使用鏈式法則。

先來說一下常規求導的過程：

這里寫圖片描述

這是一個簡單的復合函數，如上圖所示，c是a的函數，e是c的函數，如果我們用鏈式求導法則，分別對a和b求導，那么就是求出e對c的導數，c對a的導數，乘起來，對b求導則是求出e分別對c和d的導數，分別求c和d對b的導數，然后加起來，這種方法使我們常規的做法，有一個問題就是，我們在求到的過程中，e對c求導計算了2次，如果方程特別復雜，那么這個計算量就變得很大，怎樣能夠讓每次求導只計算一次呢？

這里寫圖片描述

如上圖所示，我們從上往下開始計算，將每個單元的值計算出來，然后計算每個單元的偏導數，保存下來；

接下來繼續計算子單元的值，子單元的偏導數，保存下來；將最后的子單元到根節點所在的路徑的所有偏導乘起來，就是該函數對這個變量的偏導，計算的本質就是從上往下，計算的時候將值存起來，乘到后面的單元上去，這樣每個路徑的偏導計算只需要一次，從上到下計算一遍就得到了所有的偏導數。

實際上BP(Backpropagation，反向傳播算法)，就是如此計算的，如果現在有一個三層的神經網絡，有輸入、一個隱藏層，輸出層，我們對損失函數求權重的偏導數，它是一個復雜的復合函數，如果先對第一層的權重求偏導，然后在對第二層的權重求偏導，會發現，其中有很多重復計算的步驟，就像上面的簡單函數的示例，所以，為了避免這種消耗，我們采用的就是從后往前求偏導，求出每個單元的函數值，求出對應單元的偏導數，保存下來，一直乘下去，輸入層。

下面用一個簡單的示例來演示一下反向傳播求偏導的過程：

這里寫圖片描述