神經網絡過擬合問題


在訓練數據不夠多,網絡結構很復雜,或者overtraining時,可能會產生過擬合問題。

一般我們會將整個數據集分為訓練集training data、validation data,testing data。這個validation data是什么?它其實就是用來避免過擬合的,在訓練過程中,我們通常用它來確定一些超參數(比如根據validation data上的accuracy來確定提前終止的epoch大小、根據validation data確定learning rate等等)。那為啥不直接在testing data上做這些呢?因為如果在testing data做這些,那么隨着訓練的進行,我們的網絡實際上就是在一點一點地overfitting我們的testing data,導致最后得到的testing accuracy沒有任何參考意義。因此,training data的作用是計算梯度更新權重,validation data如上所述,testing data則給出一個accuracy以判斷網絡的好壞。

那么過擬合的直觀解釋為,隨着訓練過程的進行,模型復雜度增加,在training data上的error漸漸減小,但是在驗證集上的error卻反而漸漸增大——因為訓練出來的網絡過擬合了訓練集,對訓練集外的數據效果不好。也就是如過產生了過擬合問題,那么用training data得到的准確率同testing data得到的准確率相差非常大。

                                                                

那么為了防止過擬合問題,可用的方法有:得到更大的數據集,正則化方法,在網絡層dropout一下。下面主要對dropout和正則化方法做討論。

1.dropout

                                    

dropout的實質就是隨機的讓每層的一些神經元不工作以減少模型的復雜度。

它為什么有助於防止過擬合呢?可以簡單地這樣解釋,運用了dropout的訓練過程,相當於訓練了很多個只有半數隱層單元的神經網絡(后面簡稱為“半數網絡”),每一個這樣的半數網絡,都可以給出一個分類結果,這些結果有的是正確的,有的是錯誤的。隨着訓練的進行,大部分半數網絡都可以給出正確的分類結果,那么少數的錯誤分類結果就不會對最終結果造成大的影響。

2.正則化

 

L2正則化就是在代價函數后面再加上一個正則化項:

C0代表原始的代價函數,后面那一項就是L2正則化項,它是這樣來的:所有參數w的平方的和,除以訓練集的樣本大小n。λ就是正則項系數,權衡正則項與C0項的比重。另外還有一個系數1/2,1/2經常會看到,主要是為了后面求導的結果方便,后面那一項求導會產生一個2,與1/2相乘剛好湊整。

L2正則化項是怎么避免overfitting的呢?我們推導一下看看,先求導:

可以發現L2正則化項對b的更新沒有影響,但是對於w的更新有影響:

在不使用L2正則化時,求導結果中w前系數為1,現在w前面系數為 1−ηλ/n ,因為η、λ、n都是正的,所以 1−ηλ/n小於1,它的效果是減小w,這也就是權重衰減(weight decay)的由來當然考慮到后面的導數項,w最終的值可能增大也可能減小

另外,需要提一下,對於基於mini-batch的隨機梯度下降,w和b更新的公式跟上面給出的有點不同:

對比上面w的更新公式,可以發現后面那一項變了,變成所有導數加和,乘以η再除以m,m是一個mini-batch中樣本的個數。

到目前為止,我們只是解釋了L2正則化項有讓w“變小”的效果,但是還沒解釋為什么w“變小”可以防止overfitting?一個所謂“顯而易見”的解釋就是:更小的權值w,從某種意義上說,表示網絡的復雜度更低,對數據的擬合剛剛好(這個法則也叫做奧卡姆剃刀),而在實際應用中,也驗證了這一點,L2正則化的效果往往好於未經正則化的效果。當然,對於很多人(包括我)來說,這個解釋似乎不那么顯而易見,所以這里添加一個稍微數學一點的解釋(引自知乎):

過擬合的時候,擬合函數的系數往往非常大,為什么?如下圖所示,過擬合,就是擬合函數需要顧忌每一個點,最終形成的擬合函數波動很大。在某些很小的區間里,函數值的變化很劇烈。這就意味着函數在某些小區間里的導數值(絕對值)非常大,由於自變量值可大可小,所以只有系數足夠大,才能保證導數值很大。

而正則化是通過約束參數的范數使其不要太大,所以可以在一定程度上減少過擬合情況。

 L1正則化:

在原始的代價函數后面加上一個L1正則化項,即所有權重w的絕對值的和,乘以λ/n(這里不像L2正則化項那樣,需要再乘以1/2,具體原因上面已經說過。)

同樣先計算導數:

上式中sgn(w)表示w的符號。那么權重w的更新規則為:

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時,更新后的w變小。當w為負時,更新后的w變大——因此它的效果就是讓w往0靠,使網絡中的權重盡可能為0,也就相當於減小了網絡復雜度,防止過擬合。

另外,上面沒有提到一個問題,當w為0時怎么辦?當w等於0時,|W|是不可導的,所以我們只能按照原始的未經正則化的方法去更新w,這就相當於去掉η*λ*sgn(w)/n這一項,所以我們可以規定sgn(0)=0,這樣就把w=0的情況也統一進來了。(在編程的時候,令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1)

 

下一篇將討論優化器(optimizer)問題。

 

'''
##加入正則項
'''
import tensorflow as tf
from numpy.random import RandomState
from tensorflow.examples.tutorials.mnist import input_data
from matplotlib import pyplot as plt
import numpy as np
 
#獲取一層神經網絡的權重,並將權重的L2正則化損失加入到集合中
def get_weight(shape,lamda):
    #定義變量
    var = tf.Variable(tf.random_normal(shape=shape),dtype=tf.float32)
    #將變量的L2正則化損失添加到集合中
    tf.add_to_collection("losses",tf.contrib.layers.l2_regularizer(lamda)(var))
    return var
 
 
if __name__=="__main__":
    #獲取數據
    mnist = input_data.read_data_sets('MNIST_data',one_hot = True)
    batch_size = 100
    n_batch = mnist.train.num_examples // batch_size
    #定義輸入輸出節點
    x= tf.placeholder(tf.float32,[None,784])
    y= tf.placeholder(tf.float32,[None,10])
    #定義每次迭代數據的大小
    #定義兩層神經網絡,並設置每一層神經網絡的節點數目
    layer_dimension = [784,10]
    #獲取神經網絡的層數
    n_layers = len(layer_dimension)
    #定義神經網絡第一層的輸入
    cur_layer = x
    #當前層的節點個數
    in_dimension = layer_dimension[0]
    #通過循環來生成5層全連接的神經網絡結構
    for i in range(1,n_layers):
        #定義神經網絡上一層的輸出,下一層的輸入
        out_dimension = layer_dimension[i]
        #定義當前層中權重的變量,並將變量的L2損失添加到計算圖的集合中
        weight = get_weight([in_dimension,out_dimension],0.001)
        #定義偏置項
        bias = tf.Variable(tf.constant(0.1,shape=[out_dimension]))
        #使用RELU激活函數
        cur_layer = tf.nn.softmax(tf.matmul(cur_layer,weight) + bias)
        #定義下一層神經網絡的輸入節點數
        in_dimension = layer_dimension[i]
    #定義均方差的損失函數
    loss_mse = tf.reduce_mean(tf.square(y - cur_layer))
    #將均方差孫函數添加到集合
    tf.add_to_collection("losses",loss_mse)
    #獲取整個模型的損失函數,tf.get_collection("losses")返回集合中定義的損失
    #將整個集合中的損失相加得到整個模型的損失函數
    loss = tf.add_n(tf.get_collection("losses"))
    
    train = tf.train.MomentumOptimizer(0.1,0.9).minimize(loss)

    init = tf.global_variables_initializer()

    correct = tf.equal(tf.argmax(cur_layer,1),tf.argmax(y,1))
    accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))

    loss_mse_list = []
    loss_list = []
    with tf.Session() as sess:
        sess.run(init)
        for epoch in range(31):
            for batch in range(n_batch):
                batch_xs,batch_ys = mnist.train.next_batch(batch_size)
                sess.run(train,feed_dict={x:batch_xs,y:batch_ys})
                if(batch == n_batch-1):
                    loss_mse_list.append(sess.run(loss_mse,feed_dict={x:batch_xs,y:batch_ys}))
                    loss_list.append(sess.run(loss,feed_dict={x:batch_xs,y:batch_ys}))
                
            acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
            print('iteration ', str(epoch),' accuracy: ',acc)
        
    plt.plot(np.array(loss_list) - np.array(loss_mse_list),'b-')
    plt.show()

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM