《神經網絡與深度學習》：第一章使用神經網絡來識別手寫數字（一）

本文轉載自查看原文 2016-03-20 01:26 8591 手寫識別/ 機器學習/ 深度學習/ 感知器/ 神經網絡

譯者：本文為轉載翻譯自免費英文電子書《Neural Networks and Deep Learning》，將逐步翻譯成中文，原文鏈接：http://neuralnetworksanddeeplearning.com/chap1.html

由於本章節很長，編輯器很卡，翻譯時我會分成幾個小節，這是第一小節。

人類的視覺系統是很神奇的。考慮一下下面幾個手寫的數字：

大多數人一眼就認出這些數字是504192。在人的每個大腦半球，人類有一個主要的視覺皮質，被稱為 V1，包含 1.4億個神經元，有幾百億的神經連接。人類的視覺系統不單只涉及V1，而且涉及到一整個視覺皮質 - V2, V3, V4, 和 V5 - 它們一步步處理着復雜的圖像。我們大腦是一個超級計算機，經過幾十億年的演變，逐漸適應這個可視化的世界。識別手寫數字不是那么容易的。相反地，人類的處理能力是驚人的，人類善於使我們理解看到的東西。幾乎所有工作都是無意識地進行。我們通常不會佩服自己的視覺系統怎樣解決怎么困難的問題。視覺模式識別的困難性顯而易見，如果你嘗試寫一個程序來識別類似下面數字。看起來簡單的東西實現起來非常困難。簡單直觀的例子是我們怎么識別形狀。 - "數字 9 頭頂上有一個圈，右下方是一豎" - 用算法來表達不是那么容易的。當你嘗試讓這些規則變得很精確，你很快就會在異常、警告和例外的困境中蒙圈。它看起來毫無解決的希望。

神經網絡以不同的方式解決這個問題。思路是拿大量的手寫數字來作為訓練樣本，

然后演化為一個可以從樣本中學習的系統，從另外的角度來講，神經網絡使用樣本來自動推理手寫識別的規則。進一步，通過增加訓練樣本，網絡可以學習更多手寫文字，改善它識別的准確度。我只是在上面展示了100個用於訓練的數字，也許我們可以通過使用幾千、幾百萬、幾十億的訓練樣本來建一個更好的手寫識別器。

在這一節，我們會寫一個程序來實現一個學習手寫數字的神經網絡。這個程序只有74行代碼，並且沒有用到第三方的神經網絡庫。但這個小程序的識別精度可以達到96%，而且是在沒有人的介入的情況下達到的。然后進一步，在接下來的章節中，我們會改進，使程序的精度達到99%。事實上，最好的商業應用神經網絡可以應用在銀行的賬單處理中，以及郵局的地址識別。

我們專注於講解手寫識別，因為這是一個學習神經網絡的非常棒的原型。手寫識別作為學習例子有個好處：有挑戰性 - 識別手寫數字是一個不小的本領 - 但不需要非常復雜的解決方案，也不需要海量計算那么困難。進一步講，這是一個發展高級計算，例如深度學習的很好的途徑。這這本書的整個過程，我們會重復地提到手寫識別的問題。這本書的后面，我們會討論怎樣將這些思想應用到計算機視覺方面，人機對話和自然語言處理，以及其他領域。

當然，如果這節的關鍵在於寫一個程序來識別手寫數字，那么這節內容會短很多。但在此期間，我們會引出很多關鍵的神經網絡思想，包括兩種重要的人工神經網絡 (感知網絡和 sigmoid 神經網絡)，以及標准的神經網絡學習算法，例如梯度下降算法。在此期間，我會集中講解為什么神經網絡的原理，讓你從直觀上認識神經網絡。我不止給你簡單展示基本的機制，我需要啰嗦一大段。啰嗦是值得的，希望你會理解更加深刻。從這章節，你可以理解什么是深度學習，為什么它那么重要。

感知器

什么是神經網絡？為了開始，我會解釋一種叫感知網絡的神經網絡。感知網絡在1950到1960左右被科學家 Frank Rosenblatt提出，它受到 Warren McCulloch 和 Walter Pitts早期研究成果的啟發。今天，這種網絡以及被其它種類的神經網絡代替了 - 在這本書中，更加先進的主流使用的神經網絡是sigmoid 神經網絡。我們很快就介紹到它了。但為了明白為什么會出現 sigmoid 網絡，首先要明白什么是感知網絡。

那么感知網絡是怎樣工作的呢？感知網絡有一個或以上的輸入

在下面的例子，展示了感知網絡有三個輸入，

$\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$ $\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$

輸出=1 如果

這是基本的數學模型。你可以這樣理解感知網絡，它是一個通過衡量各種因素的重要程度來作決定的設備。我舉個例子，不是很現實的例子，但人容易明白，稍后我們會了解到更加現實的例子。假如周末要來了，你聽說你所在將舉辦一個奶酪節。你很喜歡奶酪，你糾結是否要去這個奶酪節看看。你可能會衡量三個因素來決定是否要去：

天氣是否下雨
你的男朋友或者女朋友會不會陪你去
奶酪節現場是否有公共交通工具 (假如你沒有私家車)

現在，假如你非常喜歡奶酪，你當然樂於去奶酪節現場，即使你男/女朋友對此不感興趣，或者交通不是特別方便。但可能你非常討厭下雨天，如果下雨的話你對什么節之類喪失興趣。你可以用感知網絡來作這種決策的建模。其中的一個建模方法是選擇一個圈子

通過不同的權重和閾值，我們可以得到不同的決策模型。例如，假如你的閾值選了3。那么感知網絡會認為你應該去，無論天氣情況、交通狀況、是否有朋友陪伴。換言之，這變成了另外一個決策模型了。減少閾值意味着你更想去奶酪節。

顯然，感知網絡不是人類完整的決策模型。但至少證明了感知網絡可以通過設置不同條件的權重來做決策。而且它看起來可以通過復雜的網絡來作出穩定的決策：

很意外，當我定義感知網絡的時候，我說過感知網絡只有一個輸出。在上面的感知網絡看起來好像有很多個輸出。事實上，它們依然只有一個輸出。多個輸出都指向下一個網絡作為下一個網絡的輸入。畫一條想然后分開兩條並不難。

我們簡化地描述感知器。

output = 0 if w \cdot x + b \leq 0

output = 1 if w \cdot x + b > 0

我將感知器描述為衡量各種因素來做決策的一種方法。感知器也可以用於計算基本的邏輯函數例如與門AND, 或門 OR, 和與非門NAND。例如，假如你有一個感知器有兩個輸入的，每一個輸入的權重都是-2，偏移量為

與非門 NAND的例子表明我們可以使用感知器來計算簡單的邏輯功能。事實上，我們可以使用感知器的網絡來計算任何的邏輯函數。因為非門在計算機領域是通用的，也就是說我們可以使用非門來實現任意計算。例如我們可以使用非門來建立一個用於兩個位相加的回路，x1和x2。這需要計算按位相加

加法器的例子證明了一個感知器怎樣用於模擬一個包含很多個與非門的電路。因為與非門 NAND 對於計算是通用的，所以可以說感知器對計算也是通用的。

感知器的計算通用性同時令人安慰和失望。令人安慰是因為它告訴我們感知器網絡可以和其它計算設備那么強大。但令人失望的是，因為它看起來僅僅是一種新的與非門。這幾乎不上什么大新聞！

然而，情況比看起來要好。結果是我們可以設計出可以自動調整神經網絡權重和偏移量的學習算法。這種調整發生在響應外界的刺激時，沒有程序員的直接介入。這個學習算法可以讓我們通過一種完全不同與傳統邏輯門的方式來使用神經網絡。而不是明確的與非門和其它邏輯門的電路層，我們的神經網絡可以簡單的學會解決問題，特別是對於那些直接設計傳統電路很難解決的難題。

S型神經元（Sigmoid neurons ）

學習算法聽起來很了不起。但是我們怎樣給神經網絡設計出這樣算法呢？假如我們有一個想用來學習解決問題的感知器神經網絡。例如，網絡的輸入可能是來自掃描機或者手寫數字的圖片像素數據。我們想讓網絡學習權重和偏移量，網絡的輸出可以正確的分類這些數字。為了能看見學習是怎樣開展的，我們假設在權重（或者偏移量）上面作一個小的改動，這個小的改動會相應的引起輸出的一個變化。我們一會之后就可以看到，這個特性會讓學習成為可能。下圖就是我們想要的 (明顯這個網絡對於手寫識別過於簡單):

如果這是真的，一個權重或者偏移量的值得一個小的變化只會引起輸出的一個小的變化，那么我們可以用這個機制類改變權重和偏移量讓升級網絡以我們想的方式來表現。例如，假如網絡錯誤地將數字9識別為8。我們可以計算出怎樣改變權重和偏移量，讓網絡的識別結果偏向的正確的9。然后我們會重復這樣調整，改變權重和偏移量，讓輸出原來越正確。這樣的話，網絡就有學習的能力了。

問題是感知器不能實現這種微調的的效果。事實上，權重或者偏移量的一個微小的變化有時候會導致輸出結果意想不到的改變，該輸出0的輸出了1，改輸出1的輸出了0。當你調整網絡的權重或者偏移量使數字圖片

我們可以通過引入一種叫做S型神經元的新的人工神經元來解決這個問題。S型神經元類似於感知器，但是經過了改造，從而能夠使得權重和偏移量的小的變化會對輸出產生小的影響。這個關鍵的特性使得是S型神經元具有學習能力。

好，讓我媽描述一下S型神經元。我們會已面試感知器的形式類描述S型神經元：

σ (z) \equiv 1 1 + e - z .

1/( 1 + exp ( - \sum j w j x j - b ))

一眼看去，它和感知器有很大的不同。這個代數公司看起來晦澀難懂，除非你很熟悉它。事實上，它和感知器有很多類似的地方。

為了明白它和感知器的相似性，假如

代數式

這個形式就是階梯函數平滑一點的版本：

如果

Δ output \approx \sum j \partial

如果

我們應該怎么詮釋S型神經元的輸出呢？明顯，一個很大不同是S型神經元不只是輸出0或者1。它們可以輸出0到1之間的任意小數值例如

練習題

Sigmoid神經元用來仿真感知器第一部分
Sigmoid神經元用來仿真感知器第二部分

神經網絡的架構

在下一節我會介紹一個可以很好地分類手寫數字的神經網絡。作為預熱，我們先熟悉一些術語。假如我們有一個網絡：

輸入輸出層的設計通常是很直觀的。例如，假如我們嘗試判斷手寫數字圖片是否是9.一個很自然的方法是實際一個網絡將圖片的像素的顏色長度轉換為數字輸入神經網絡。如果圖片是

我們也可以很有技巧地設計一個隱藏層。尤其，將隱藏層處理結果用簡單的規則加起來的比較困難的。神經網絡研究者已經發明了很多設計探索法設計隱藏層，幫助人們設計出能獲得想要的輸出結果的網絡。這些方法可以用來幫助決定怎樣權衡隱藏層的數量和時間需求。我們會在后面介紹幾個這樣的方法。

迄今為止，我們郵件討論輸出用於下一層輸入的神經網絡。這樣的網絡叫做前饋網絡。這意味着網絡中沒有循環 - 信息總是向前傳遞，不會往回傳遞。如果我們有了循環，我們就打破

然而，有很多神經網絡模型可以有反饋的循環。這些模型稱為遞歸神經網絡。這些模型的思想是讓神經元在某個時間段內激活，然后轉為非激活狀態。激活可以模擬其它遲點激活的神經元。這樣導致了級聯式的神經元激活。在這個模型中循環不會有問題，因為輸出只會在一段時間后影響輸入，不是立刻。

遞歸神經網絡比前饋網絡的影響力小，某方面原因是遞歸神經網絡的算法（至少到現在）還沒顯現出巨大威力。但他仍然非常有意思。因為它們比前饋網絡更接近大腦的工作原理。而且它可能可以解決對於前饋網絡很難解決的問題。然而，基於文本章節限制，我們暫時不討論這個，我們集中討論廣泛應用的前饋網絡。

繼續閱讀第一章的第二小節： http://www.cnblogs.com/pathrough/p/5322736.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【神經網絡和深度學習】筆記 - 第一章使用神經網絡識別手寫數字《神經網絡與深度學習》第一章使用神經網絡來識別手寫數字（二）- 用梯度下降來訓練學習《神經網絡與深度學習》第一章使用神經網絡來識別手寫數字（三）- 用Python代碼實現 [神經網絡與深度學習（一）]使用神經網絡識別手寫數字 CNN 卷積神經網絡手寫數字圖像識別（深度學習）深度學習-使用cuda加速卷積神經網絡-手寫數字識別准確率99.7% BP神經網絡的手寫數字識別神經網絡用於手寫數字識別基於BP神經網絡的手寫數字識別手寫數字圖片識別-卷積神經網絡