思考深度學習的泛化能力

本文轉載自查看原文 2018-03-13 16:09 3037 機器學習

深度神經網絡往往帶有大量的參數，但依然表現出很強的泛化能力（指訓練好的模型在未見過的數據上的表現）。

深度神經網絡為何會擁有如此強的泛化能力？最近，兩篇論文引起了廣泛思考。

神經網絡極易記憶訓練數據，其良好的泛化能力很可能與此記憶有關。

傳統方法認為模型對訓練數據的記憶是導致泛化能力差的重要原因，因此往往通過各種各樣的正則化手段使得模型“簡約”，從而打破這種記憶。

深度神經網絡極易記憶數據，常用的正則化手段對於模型泛化能力的提高不是必要的而且也不足以控制泛化誤差。深度神經網絡發揮作用時可能很好的利用了其記憶能力。

論文通過大量試驗挑戰了傳統機器學習的觀點。

實驗一：如下圖

這里寫圖片描述

上圖的實驗結果是：哪怕是隨機的label、隨機的噪聲，神經網絡也能獲得零訓練誤差。雖然訓練時間變長，測試誤差也變高。因此，作者得出了結論：神經網絡極易記憶數據，其泛化能力很可能與記憶有關。

我的看法：作者試驗中保證網絡參數量大於數據量的2倍，如此巨大的網絡能夠記憶訓練數據似乎一點也不讓人驚奇。作者用零訓練誤差來表示網絡記憶了數據，但對於正確label和隨機label而言，同樣的零訓練誤差可能代表完全不同形式的“記憶”，因此不能簡單就說明神經網絡的能力和記憶有關。

實驗二：如下表

這里寫圖片描述

上表試圖比較說明三種類型的顯式正則化：data augmentation, weight decay and dropout的效果。結論是：這些正則化手段雖然有助於減小泛化誤差，但即使沒用這些手段，模型依然可以比較好的泛華。即正則化不是模型泛化的根本原因。

文章結論：深度神經網絡的性能並非來自“記憶”，而是源於在有限數據上學習簡單的、切合的可用假設。

實驗一：如下圖

這里寫圖片描述

實驗現象：對於真實數據，網絡可以用較少的參數獲得較好的性能；對於噪聲，則需要增加網絡容量。

結論：這暗示網絡是在學習某種“模式”，而不是簡單的暴力記憶。

實驗二：如下圖

這里寫圖片描述

實驗現象：減小網絡容量或者增加數據集的大小會使網絡收斂速度變慢，但這一現象對真實數據並不明顯。

結論：這暗示網絡是在學習某種“模式”，而不是簡單的暴力記憶。（否則的話，樣本增多，訓練速度應該變慢很多。）

未完待續：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何增加深度學習模型的泛化能力(L1/L2正則化，dropout，數據增強等等) 深度思考的能力，決定了你能走多遠技術人必須掌握能力——深度思考機器學習-過擬合與增強模型的泛化能力提高泛化能力的方法關於深度學習的一點思考深度學習的一些思考深度學習工程師能力模型 [問題] 分類模型泛化能力不好周志華教授：關於深度學習的一點思考