感謝中國人民大學的胡鶴老師,課程理論實踐結合,講得很好~
神經網絡是從生物領域自然的鬼斧神工中學習智慧的一種應用。人工神經網絡(ANN)的發展經歷的了幾次高潮低谷,如今,隨着數據爆發、硬件計算能力暴增、深度學習算法的優化,我們迎來了又一次的ANN雄起時代,以深度學習為首的人工神經網絡,又一次走入人們的視野。
感知機模型perceptron
不再處理離散情況,而是連續的數值,學習時權值在變化,從而記憶存儲學到的知識
神經元輸入:類似於線性回歸z =w1x1+w2x2 +⋯ +wnxn= wT・x(linear threshold unit (LTU))
神經元輸出:激活函數,類似於二值分類,模擬了生物學中神經元只有激發和抑制兩種狀態。
增加偏值,輸出層哪個節點權重大,輸出哪一個。
采用Hebb准則,下一個權重調整方法參考當前權重和訓練效果
#一個感知機的例子
import numpy as np from sklearn.datasets import load_iris from sklearn.linear_model import Perceptron iris = load_iris() X = iris.data[:, (2, 3)] # petal length, petal width y = (iris.target == 0).astype(np.int) # Iris Setosa? per_clf = Perceptron(random_state=42) per_clf.fit(X, y) y_pred = per_clf.predict([[2, 0.5]]
之后有人提出,perceptron無法處理異或問題,但是,使用多層感知機(MLP)可以處理這個問題
def heaviside(z): return (z >= 0).astype(z.dtype) def sigmoid(z): return 1/(1+np.exp(-z)) #做了多層activation,手工配置權重 def mlp_xor(x1, x2, activation=heaviside): return activation(-activation(x1 + x2 - 1.5) + activation(x1 + x2 - 0.5) - 0.5)
如圖所示,兩層MLP,包含輸入層,隱層,輸出層。所謂的深度神經網絡,就是隱層數量多一些。
激活函數
以下是幾個激活函數的例子,其微分如右圖所示
step是最早提出的一種激活函數,但是它在除0外所有點的微分都是0,沒有辦法計算梯度
logit和雙曲正切函數tanh梯度消失,數據量很大時,梯度無限趨近於0,
relu在層次很深時梯度也不為0,無限傳導下去。
如何自動化學習計算權重——backpropagation
首先正向做一個計算,根據當前輸出做一個error計算,作為指導信號反向調整前一層輸出權重使其落入一個合理區間,反復這樣調整到第一層,每輪調整都有一個學習率,調整結束后,網絡越來越合理。
step函數換成邏輯回歸函數σ(z) = 1 / (1 + exp(–z)),無論x落在哪個區域,最后都有一個非0的梯度可以使用,落在(0,1)區間。
雙曲正切函數The hyperbolic tangent function tanh (z) = 2σ(2z) – 1,在(-1,1)的區間。
The ReLU function ReLU (z) = max (0, z),層次很深時不會越傳遞越小。
多分類時,使用softmax(logistics激活函數)最為常見。
使用MLP多分類輸出層為softmax,隱層傾向於使用ReLU,因為向前傳遞時不會有數值越來越小得不到訓練的情況產生。
以mnist數據集為例
import tensorflow as tf # construction phase n_inputs = 28*28 # MNIST # 隱藏層節點數目 n_hidden1 = 300 n_hidden2 = 100 n_outputs = 10 X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") y = tf.placeholder(tf.int64, shape=(None), name="y") def neuron_layer(X, n_neurons, name, activation=None): with tf.name_scope(name): n_inputs = int(X.get_shape()[1]) # 標准差初始設定,研究證明設為以下結果訓練更快 stddev = 2 / np.sqrt(n_inputs) # 使用截斷的正態分布,過濾掉極端的數據,做了一個初始權重矩陣,是input和neurons的全連接矩陣 init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev) W = tf.Variable(init, name="weights") # biases項初始化為0 b = tf.Variable(tf.zeros([n_neurons]), name="biases") # 該層輸出 z = tf.matmul(X, W) + b # 根據activation選擇激活函數 if activation=="relu": return tf.nn.relu(z) else: return z with tf.name_scope("dnn"): # 算上輸入層一共4層的dnn結構 hidden1 = neuron_layer(X, n_hidden1, "hidden1", activation="relu") hidden2 = neuron_layer(hidden1, n_hidden2, "hidden2", activation="relu") # 直接輸出最后結果值 logits = neuron_layer(hidden2, n_outputs, "outputs") # 使用TensorFlow自帶函數實現,最新修改成dense函數 from tensorflow.contrib.layers import fully_connected with tf.name_scope("dnn"): hidden1 = fully_connected(X, n_hidden1, scope="hidden1") hidden2 = fully_connected(hidden1, n_hidden2, scope="hidden2") logits = fully_connected(hidden2, n_outputs, scope="outputs", activation_fn=None) # 使用logits(網絡輸出)計算交叉熵,取均值為誤差 with tf.name_scope("loss"): xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss = tf.reduce_mean(xentropy, name="loss") learning_rate = 0.01 with tf.name_scope("train"): optimizer = tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss) with tf.name_scope("eval"): correct = tf.nn.in_top_k(logits, y, 1) accuracy = tf.reduce_mean(tf.cast(correct, tf.float32)) init = tf.global_variables_initializer() saver = tf.train.Saver() # Execution Phase from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("/tmp/data/") # 外層大循環跑400次,每個循環中小循環數據量50 n_epochs = 400 batch_size = 50 with tf.Session() as sess: init.run() for epoch in range(n_epochs): for iteration in range(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch}) acc_test = accuracy.eval(feed_dict={X: mnist.test.images,y: mnist.test.labels}) print(epoch, "Train accuracy:", acc_train, "Test accuracy:", acc_test) # 下次再跑模型時不用再次訓練了 save_path = saver.save(sess, "./my_model_final.ckpt") # 下次調用 with tf.Session() as sess: saver.restore(sess, "./my_model_final.ckpt") # or better, use save_path X_new_scaled = mnist.test.images[:20] Z = logits.eval(feed_dict={X: X_new_scaled}) y_pred = np.argmax(Z, axis=1)
超參數設置
隱層數量:一般來說單個隱層即可,對於復雜問題,由於深層模型可以實現淺層的指數級別的效果,且每層節點數不多,加至overfit就不要再加了。
每層神經元數量:以漏斗形逐層遞減,輸入層最多,逐漸features更少代表性更強。
激活函數選擇(activation function):隱層多選擇ReLU,輸出層多選擇softmax