防止或減輕過擬合的方式（一）——正則化

本文轉載自查看原文 2020-02-01 15:52 175 tensorflow深度學習

在進行模型搭建時常用的解決過擬合的方法有以下幾種：

　　· 采用更多的數據

　　· 迫使模型的復雜度降低（減少層數、正則化）

　　· dropout（提高魯棒性）

　　· 提早結束訓練過程

　　· 數據增強

這里重點講正則化(regularization)

假定對於一個二分類問題，它的交叉熵損失函數為

J(ω) = - 1/m Σ [ y_ilny_i^'+ (1-y_i)ln(1-y_i') ]

所謂正則化，即在損失函數的基礎上加上一個范數，當加上L₁范數時，被稱為L₁正則化，當加上L₂范數時，被稱為L₂正則化

其思想就是在損失函數中加入被稱為正則化項（Regularizer）的懲罰

L₁(θ) = ||θ||₁= Σ|θ_i|

L₂(θ) = ||θ||₂²= Σ|θ_i|²

待優化的函數就從J(ω)變為了J(ω)+λL₁(θ)或J(ω)+λL₂(θ)

那么如何給網絡結構添加這樣的結構？代碼如下：

l2_model = keras.Sequential([
    keras.layers.Dense(16,kernal_regularizer=keras.regularizers.l2(0.001)),
    keras.layers.Dense(16,kernel_regularizer=keras.regularizers.l2(0.001)),
    keras.layers.Dense(1,activation=tf.nn.sigmoid)
])

更加靈活的添加方式如下：

for step,(x,y) in enumerate(db):
    with tf.GradientTape() as tape:
        # ……
        loss = tf.reduce_mean(tf.losses.categorical_crossentropy(y_onehot,out,from_logits=True))
        loss_regularization = []
        for p in network.trainable_variables:
            loss_regularization.append(tf.nn.l2_loss(p))
        loss_regularization = tf.reduce_sum(tf.stack(loss_regularization))
        loss = loss +0.0001 * loss_regularization
        
    grad = tape.gradient(loss,network.trainable_variables)
    optimizer.apply_gradients(zip(grad,network.trainable_variables))

最小化J(ω)+λL(θ)意味着需要在偏好小范數權重和擬合訓練數據之間找到一個平衡，其根本思想是通過限制權重的大小，降低模型擬合訓練集中存在噪音的概率，從而減輕過擬合。需要注意的是，這兩種正則化在使用時存在兩個主要的區別，首先L1正則化會讓參數變得更稀疏（會有更多的參數變為0），而L2正則化不會；其次，計算L1正則化的公式不可導，而計算L2正則化的公式可導，這就導致了在優化時計算L2正則化損失函數的偏導數要更加簡潔，而計算L1正則化損失函數的偏導數要更加復雜。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習中使用「正則化來防止過擬合」到底是一個什么原理？為什么正則化項就可以防止過擬合？正則化——解決過擬合問題對於正則化的理解正則化--Lambda 7、正則化(Regularization) TensorFlow(三）---------正則化什么是泛化能力？什么是過擬合？和正則化又有什么樣的關系？Follow me L1正則化和L2正則化回歸問題及正則化超參數，正則化