tensorflow隨機梯度下降算法使用滑動平均模型

本文轉載自查看原文 2018-06-18 15:17 1078 數據挖掘算法

在采用隨機梯度下降算法訓練神經網絡時，使用滑動平均模型可以提高最終模型在測試集數據上的表現。在Tensflow中提供了tf.train.ExponentialMovingAverage來實現滑動平均模型。在初始化ExponentialMovingAverage時，需要提供一個衰減率（decay)。這個衰減率將用於控制模型更新的速度。ExponentialMovingAverage對每一個變量會維護一個影子變量（shadowvariable),這個影子變量的初始值就是相應變量的初始值，而每次運行變量更新時，影子變量的值會更新為：

shadow_variable=decay x shadow_variable+(1-decay) x variable

其中shadow_variable 為影子變量，variable為待更新的變量，decay為衰減率。decay決定了模型更新的速度，decay越大模型越趨於穩定。在實際應用中，decay一般會設成非常接近1的數（比如0.999或0.9999）。為了使得模型在訓練前期可以更新得更快，ExponentialMovingAverage還提供了num_updates參數來動態設置decay的大小.

下面是ExponentailMovingAverage使用示例

# -*- coding:UTF-8 -*-
import  tensorflow as tf
# 定義一個初始為0的變量來計算滑動平均

v1=tf.Variable(0,dtype=tf.float32)

#這里的step變量模擬神經網絡中迭代的輪數，可以用於動態控制衰減率
step=tf.Variable(0,trainable=False)

#定義一個滑動平均的類，初始化時給定了衰減率（0.99)和控制衰減率的變量step
ema=tf.train.ExponentialMovingAverage(0.99,step)

# 定義一個更新變量滑動平均的操作，這里給定一個列表，每次執行這個操作時，這個列表中的變量的值都會更新

maintain_averages_op=ema.apply([v1])
with tf.Session() as sess:
    # 初始化所有變量
     init_op=tf.global_variables_initializer()
     sess.run(init_op)

    # 通過ema.average(v1)獲取滑動平均之后變量的取值。在初始化之后變量v1的值和v1的滑動平均都為0

     print sess.run([v1,ema.average(v1)])
    # 更新變量v1的值到5
     sess.run(tf.assign(v1,5))
    # 更新v1的滑動平均值，衰減率為min{0.99,(1+step)/(10+step)=0.1}=0.1
    # 所以v1的滑動平均會被更新為0.1*0+0.9*5=4.5

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])

    # 更新 step的值為10000
     sess.run(tf.assign(step,10000))
    # 更新 v1的值為10。
     sess.run(tf.assign(v1,10))
    # 更新v1 的滑動平均值。衰減率為min(0.99,(1+step)/(10+step)≈0.999}=0.99
    # 所以v1的滑動平均會被更新為0.99*4.5+0.01*10=4.555

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])
   
    #再次更新滑動平均值，得到的新滑動平均值為0.99*4.555+0.01*10=4.60945

     sess.run(maintain_averages_op)
     print sess.run([v1,ema.average(v1)])

結果如下

[0.0, 0.0]
[5.0, 4.5]
[10.0, 4.555]
[10.0, 4.60945]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 梯度下降與隨機梯度下降隨機梯度下降算法求解SVM tensorflow入門筆記（二）滑動平均模型監督學習——隨機梯度下降算法（sgd）和批梯度下降算法（bgd）神經網絡與深度學習（2）：梯度下降算法和隨機梯度下降算法梯度下降、隨機梯度下降和批量梯度下降梯度下降算法對比（批量下降/隨機下降/mini-batch）梯度下降優化算法梯度下降算法 (轉)滑動平均法、滑動平均模型算法（Moving average，MA）