零基礎入門深度學習(1) - 感知器


無論即將到來的是大數據時代還是人工智能時代,亦或是傳統行業使用人工智能在雲上處理大數據的時代,作為一個有理想有追求的程序員,不懂深度學習(Deep Learning)這個超熱的技術,會不會感覺馬上就out了?現在救命稻草來了,《零基礎入門深度學習》系列文章旨在講幫助愛編程的你從零基礎達到入門級水平。零基礎意味着你不需要太多的數學知識,只要會寫程序就行了,沒錯,這是專門為程序員寫的文章。雖然文中會有很多公式你也許看不懂,但同時也會有更多的代碼,程序員的你一定能看懂的(我周圍是一群狂熱的Clean Code程序員,所以我寫的代碼也不會很差)。

文章列表

零基礎入門深度學習(1) - 感知器
零基礎入門深度學習(2) - 線性單元和梯度下降
零基礎入門深度學習(3) - 神經網絡和反向傳播算法
零基礎入門深度學習(4) - 卷積神經網絡
零基礎入門深度學習(5) - 循環神經網絡
零基礎入門深度學習(6) - 長短時記憶網絡(LSTM)
零基礎入門深度學習(7) - 遞歸神經網絡

深度學習是啥

在人工智能領域,有一個方法叫機器學習。在機器學習這個方法里,有一類算法叫神經網絡。神經網絡如下圖所示:

上圖中每個圓圈都是一個神經元,每條線表示神經元之間的連接。我們可以看到,上面的神經元被分成了多層,層與層之間的神經元有連接,而層內之間的神經元沒有連接。最左邊的層叫做輸入層,這層負責接收輸入數據;最右邊的層叫輸出層,我們可以從這層獲取神經網絡輸出數據。輸入層和輸出層之間的層叫做隱藏層

隱藏層比較多(大於2)的神經網絡叫做深度神經網絡。而深度學習,就是使用深層架構(比如,深度神經網絡)的機器學習方法。

那么深層網絡和淺層網絡相比有什么優勢呢?簡單來說深層網絡能夠表達力更強。事實上,一個僅有一個隱藏層的神經網絡就能擬合任何一個函數,但是它需要很多很多的神經元。而深層網絡用少得多的神經元就能擬合同樣的函數。也就是為了擬合一個函數,要么使用一個淺而寬的網絡,要么使用一個深而窄的網絡。而后者往往更節約資源。

深層網絡也有劣勢,就是它不太容易訓練。簡單的說,你需要大量的數據,很多的技巧才能訓練好一個深層網絡。這是個手藝活。

感知器

看到這里,如果你還是一頭霧水,那也是很正常的。為了理解神經網絡,我們應該先理解神經網絡的組成單元——神經元。神經元也叫做感知器。感知器算法在上個世紀50-70年代很流行,也成功解決了很多問題。並且,感知器算法也是非常簡單的。

感知器的定義

下圖是一個感知器:

可以看到,一個感知器有如下組成部分:

  • 輸入權值 一個感知器可以接收多個輸入,每個輸入上有一個權值,此外還有一個偏置項,就是上圖中的

  • 激活函數 感知器的激活函數可以有很多選擇,比如我們可以選擇下面這個階躍函數來作為激活函數:

 

 
  • 輸出 感知器的輸出由下面這個公式來計算

 

公式

如果看完上面的公式一下子就暈了,不要緊,我們用一個簡單的例子來幫助理解。

例子:用感知器實現and函數

我們設計一個感知器,讓它來實現and運算。程序員都知道,and是一個二元函數(帶有兩個參數),下面是它的真值表

     
0 0 0
0 1 0
1 0 0
1 1 1

為了計算方便,我們用0表示false,用1表示true。這沒什么難理解的,對於C語言程序員來說,這是天經地義的。

我們令,而激活函數就是前面寫出來的階躍函數,這時,感知器就相當於and函數。不明白?我們驗算一下:

輸入上面真值表的第一行,即,那么根據公式(1),計算輸出:

 


也就是當都為0的時候,為0,這就是真值表的第一行。讀者可以自行驗證上述真值表的第二、三、四行。

例子:用感知器實現or函數

同樣,我們也可以用感知器來實現or運算。僅僅需要把偏置項的值設置為-0.3就可以了。我們驗算一下,下面是or運算的真值表

     
0 0 0
0 1 1
1 0 1
1 1 1

我們來驗算第二行,這時的輸入是,帶入公式(1):

 

 

也就是當時,為1,即or真值表第二行。讀者可以自行驗證其它行。

感知器還能做什么

事實上,感知器不僅僅能實現簡單的布爾運算。它可以擬合任何的線性函數,任何線性分類線性回歸問題都可以用感知器來解決。前面的布爾運算可以看作是二分類問題,即給定一個輸入,輸出0(屬於分類0)或1(屬於分類1)。如下面所示,and運算是一個線性分類問題,即可以用一條直線把分類0(false,紅叉表示)和分類1(true,綠點表示)分開。

然而,感知器卻不能實現異或運算,如下圖所示,異或運算不是線性的,你無法用一條直線把分類0和分類1分開。

感知器的訓練

現在,你可能困惑前面的權重項和偏置項的值是如何獲得的呢?這就要用到感知器訓練算法:將權重項和偏置項初始化為0,然后,利用下面的感知器規則迭代的修改,直到訓練完成。

 

 

其中:

 

是與輸入對應的權重項,是偏置項。事實上,可以把看作是值永遠為1的輸入所對應的權重。是訓練樣本的實際值,一般稱之為label。而是感知器的輸出值,它是根據公式(1)計算得出。是一個稱為學習速率的常數,其作用是控制每一步調整權的幅度。

每次從訓練數據中取出一個樣本的輸入向量,使用感知器計算其輸出,再根據上面的規則來調整權重。每處理一個樣本就調整一次權重。經過多輪迭代后(即全部的訓練數據被反復處理多輪),就可以訓練出感知器的權重,使之實現目標函數。

編程實戰:實現感知器

完整代碼請參考GitHub: https://github.com/hanbt/learn_dl/blob/master/perceptron.py (python2.7)

對於程序員來說,沒有什么比親自動手實現學得更快了,而且,很多時候一行代碼抵得上千言萬語。接下來我們就將實現一個感知器。

下面是一些說明:

  • 使用python語言。python在機器學習領域用的很廣泛,而且,寫python程序真的很輕松。
  • 面向對象編程。面向對象是特別好的管理復雜度的工具,應對復雜問題時,用面向對象設計方法很容易將復雜問題拆解為多個簡單問題,從而解救我們的大腦。
  • 沒有使用numpy。numpy實現了很多基礎算法,對於實現機器學習算法來說是個必備的工具。但為了降低讀者理解的難度,下面的代碼只用到了基本的python(省去您去學習numpy的時間)。

下面是感知器類的實現,非常簡單。去掉注釋只有27行,而且還包括為了美觀(每行不超過60個字符)而增加的很多換行。

  1. class Perceptron(object):
  2. def __init__(self, input_num, activator):
  3. '''
  4. 初始化感知器,設置輸入參數的個數,以及激活函數。
  5. 激活函數的類型為double -> double
  6. '''
  7. self.activator = activator
  8. # 權重向量初始化為0
  9. self.weights = [0.0 for _ in range(input_num)]
  10. # 偏置項初始化為0
  11. self.bias = 0.0
  12. def __str__(self):
  13. '''
  14. 打印學習到的權重、偏置項
  15. '''
  16. return 'weights\t:%s\nbias\t:%f\n' % (self.weights, self.bias)
  17. def predict(self, input_vec):
  18. '''
  19. 輸入向量,輸出感知器的計算結果
  20. '''
  21. # 把input_vec[x1,x2,x3...]和weights[w1,w2,w3,...]打包在一起
  22. # 變成[(x1,w1),(x2,w2),(x3,w3),...]
  23. # 然后利用map函數計算[x1*w1, x2*w2, x3*w3]
  24. # 最后利用reduce求和
  25. return self.activator(
  26. reduce(lambda a, b: a + b,
  27. map(lambda (x, w): x * w,
  28. zip(input_vec, self.weights))
  29. , 0.0) + self.bias)
  30. def train(self, input_vecs, labels, iteration, rate):
  31. '''
  32. 輸入訓練數據:一組向量、與每個向量對應的label;以及訓練輪數、學習率
  33. '''
  34. for i in range(iteration):
  35. self._one_iteration(input_vecs, labels, rate)
  36. def _one_iteration(self, input_vecs, labels, rate):
  37. '''
  38. 一次迭代,把所有的訓練數據過一遍
  39. '''
  40. # 把輸入和輸出打包在一起,成為樣本的列表[(input_vec, label), ...]
  41. # 而每個訓練樣本是(input_vec, label)
  42. samples = zip(input_vecs, labels)
  43. # 對每個樣本,按照感知器規則更新權重
  44. for (input_vec, label) in samples:
  45. # 計算感知器在當前權重下的輸出
  46. output = self.predict(input_vec)
  47. # 更新權重
  48. self._update_weights(input_vec, output, label, rate)
  49. def _update_weights(self, input_vec, output, label, rate):
  50. '''
  51. 按照感知器規則更新權重
  52. '''
  53. # 把input_vec[x1,x2,x3,...]和weights[w1,w2,w3,...]打包在一起
  54. # 變成[(x1,w1),(x2,w2),(x3,w3),...]
  55. # 然后利用感知器規則更新權重
  56. delta = label - output
  57. self.weights = map(
  58. lambda (x, w): w + rate * delta * x,
  59. zip(input_vec, self.weights))
  60. # 更新bias
  61. self.bias += rate * delta

接下來,我們利用這個感知器類去實現and函數。

  1. def f(x):
  2. '''
  3. 定義激活函數f
  4. '''
  5. return 1 if x > 0 else 0
  6. def get_training_dataset():
  7. '''
  8. 基於and真值表構建訓練數據
  9. '''
  10. # 構建訓練數據
  11. # 輸入向量列表
  12. input_vecs = [[1,1], [0,0], [1,0], [0,1]]
  13. # 期望的輸出列表,注意要與輸入一一對應
  14. # [1,1] -> 1, [0,0] -> 0, [1,0] -> 0, [0,1] -> 0
  15. labels = [1, 0, 0, 0]
  16. return input_vecs, labels
  17. def train_and_perceptron():
  18. '''
  19. 使用and真值表訓練感知器
  20. '''
  21. # 創建感知器,輸入參數個數為2(因為and是二元函數),激活函數為f
  22. p = Perceptron(2, f)
  23. # 訓練,迭代10輪, 學習速率為0.1
  24. input_vecs, labels = get_training_dataset()
  25. p.train(input_vecs, labels, 10, 0.1)
  26. #返回訓練好的感知器
  27. return p
  28. if __name__ == '__main__':
  29. # 訓練and感知器
  30. and_perception = train_and_perceptron()
  31. # 打印訓練獲得的權重
  32. print and_perception
  33. # 測試
  34. print '1 and 1 = %d' % and_perception.predict([1, 1])
  35. print '0 and 0 = %d' % and_perception.predict([0, 0])
  36. print '1 and 0 = %d' % and_perception.predict([1, 0])
  37. print '0 and 1 = %d' % and_perception.predict([0, 1])

將上述程序保存為perceptron.py文件,通過命令行執行這個程序,其運行結果為:

神奇吧!感知器竟然完全實現了and函數。讀者可以嘗試一下利用感知器實現其它函數。

小結

終於看(寫)到小結了...,大家都累了。對於零基礎的你來說,走到這里應該已經很燒腦了吧。沒關系,休息一下。值得高興的是,你終於已經走出了深度學習入門的第一步,這是巨大的進步;壞消息是,這僅僅是最簡單的部分,后面還有無數艱難險阻等着你。不過,你學的困難往往意味着別人學的也困難,掌握一門高門檻的技藝,進可糊口退可裝逼,是很值得的。

下一篇文章,我們將討論另外一種感知器:線性單元,並由此引出一種可能是最最重要的優化算法:梯度下降算法。

參考資料

    1. Tom M. Mitchell, "機器學習", 曾華軍等譯, 機械工業出版社


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM