神經網絡

本文轉載自查看原文 2021-11-06 18:24 236 機器學習

1. 神經網絡

神經網絡與深度學習

在過去的10年，AI不僅在學術界同時也在工業界取得了飛速的發展，背后離不開深度學習的貢獻。就是因為深度學習的崛起，人工智能逐步進入了人們的視野，也有了今天各種AI的落地場景。特別是，ImageNet

競賽和AlphaGo事件正好也起到了催化劑的作用，迅速引起了全球對AI的風波，促使人人談論AI，也讓很多公司開始對AI重視了起來。

實際上,基於神經網絡的深度學習在90年代已經被人提出來了,但那個年代很少人關注深度學習,而且只有以hinton為代表的少部分人一直堅持了下來。

深度學習實際上並不新鮮, 包括反向傳播算法在90年代已經被提出來了。但那個時候深度學習並沒有受到關注, 主要因為它並沒有帶來很好的效果。歸其原因：

第一、那時候我們並不知道如何更好地訓練模型,預訓練等概念2000年后才被提了出來;
第二、那時候數據量也很少, 而且我們知道深度學習的優勢在於處理大量的數據。數據量較少時, 傳統的方法也能取得較好的效果;
第三、訓練深度學習需要大量的算力, 那時候顯然不像今天, 有着很強的計算工具。

總結起來，對於深度學習的發展跟以下幾點是離不開的

大量的數據(大數據)
計算資源(如GPU)
訓練方法(如預訓練)

很多時候，我們也可以認為真正讓深度學習爆發起來的是數據和算力，這並不是沒道理的。

深度學習加速推進了AI的發展以及工業界中的落地，然而深度學習模型的基礎是神經網絡，所以理解神經網絡具有巨大意義。

神經網絡中所涉及到的前向傳播、反向傳播等技術以及梯度消失等現象都會出現在其他深度學習模型如深度神經網絡、卷積神經網絡、RNN、LSTM中。先學好神經網絡再去接觸深度學習相關的技術，這樣會事

半功倍。

神經網絡與大腦

對於監督學習來講，核心是要學出特征

神經網絡的提出是為了模擬大腦,你覺得目前的神經網絡或者深度學習能夠真正模擬出大腦的機理嗎?

目前我們對大腦的認知是非常有限的, 真正能夠打開大腦里的秘密可能需要未來很長時間, 但這也不是說, 我們對大腦完全不了解。從這個角度, 我們可以很容易判斷出神經網絡或者深度學習只能算是在我們有限的

認知下盡量模仿大腦。

$學習的本質$

神經網絡試着模擬大腦中的信號傳遞

從映射的角度考慮

神經網絡中的神經元

我們都知道神經網絡模型的提出是為了模擬人的大腦的，而且人的大腦由非常多的神經元組成，每個神經元是接受信號和輸出信號的最小單位。當我們人類接收外界信號時，這個信號會層層通過大腦里的神經元

進行傳遞，最終這些會使得人類對外界做出一些反應。類似的，神經網絡本身也是由大量的神經元(neuron)構成。那接下來先了解一下神經網絡中每一個神經元是如何工作的。

神經網絡

神經元是神經網絡的最小組成部分；
激活函數的作用是讓

2. 不同類型的激活函數

線性激活函數

線性激活函數實際上是沒作用的，即便加了也等於什么都沒加，因為它對信號不會做任何的處理。這有點類似於管道，來了信號之后原封不動地輸出出去。之所以提出線性激活函數，其主要目的是為了完整性。

那什么會用到線性激活函數呢?通常在，深度模型中的最后一層會用到。另外，如果我們沒有疊加任何的激活函數到神經元，默認可以認為是加了線性激活函數。

非線性激活函數

激活函數 Sigmoid

二分類問題

激活函數 "tanh"

3. 多層神經網絡的向前傳播

多層神經網絡的前向傳播，也就是給定一個輸入之后，計算最終的輸出。

神經網絡是由神經元構成的，同時也是一層一層疊加而成的。那為什么要疊加呢? 之后會了解到。先看如何做前向傳播(forward propagation)，也就是給定一個輸入之后，如何通過一層層的網絡結構最后得到輸

出，這一點對理解神經網絡來講格外重要。只有理解了這一點，才能清楚理解反向傳播算法(back propagation)，也是深度學習訓練中最為核心的技術。

對於多層神經網絡, 假如針對於每個神經元我們都選擇線性激活函數，如果都是線性函數,多層是沒有意義的, 如果都是線性函數, 最終得出的x和y之間的關系就是線性的；

如果每一個激活函數都是線性的, 那最終得出來的

多輸出 - 分類 & 損失函數

多層神經網絡

當我們增加額外的隱含層時就可以得到多層神經網絡。至於隱含層的個數是沒有限制的，我們可以隨意搭建很多層的神經網絡。為什么要增加隱含層呢? 道理很簡單，增加隱含層可直接導致模型的復雜度變高，

隨之帶來的就是可以學出

對於神經網絡來講，網絡的層數、每一個隱含層所包含的神經元個數，這些都是模型的超參數。那這些超參數如何選擇呢? 最經典的方法仍然是交叉驗證，每種組合都實驗一遍，並找出其中最好的參數組合。然

而，對於很多層的神經網絡，我們具有非常多的超參數，僅僅做交叉驗證就需要大量的計算資源。幸運的是，交叉驗證本身可以並行化，每一組參數的嘗試互不影響。

訓練神經網絡或者深度學習，實際上最大的挑戰在於設計網絡結構。那問題就來了，有沒有更好地方式來設計網絡結構呢?是否真的必要人工去一個個嘗試呢?為了解決這些問題，AutoML概念被提了出來，也就

是讓機器自動去尋找最好的網絡結構。這個領域目前發展很迅速，在不久的將來我們應該都可以用上AutoML工具。