論文筆記——Deep Model Compression Distilling Knowledge from Noisy Teachers - 碼上歡樂

相關內容簡體繁體

論文筆記——Deep Model Compression Distilling Knowledge from Noisy Teachers

本文轉載自查看原文 2017-10-12 00:22 1387 網絡壓縮(model compression)

論文地址：https://arxiv.org/abs/1610.09650

主要思想

這篇文章就是用teacher-student模型，用一個teacher模型來訓練一個student模型，同時對teacher模型的輸出結果加以噪聲，然后來模擬多個teacher，這也是一種正則化的方法。

1. teacher輸出的結果加噪聲以后，然后和student的輸出結果計算L2 loss，作為student網絡的反饋。

2. 加噪聲

3. 計算L2 loss

4. 反向傳播，更新參數

5. 算法過程

注意：加噪聲的時候對輸入進行了采樣，不然直接全加也太暴力了吧。

等價於基於噪聲的回歸

實驗結果

1. 對比了不同噪聲比例對結果的影響，其實就是調參的過程。

2. 比較了學生加噪聲和教師加噪聲，結果是教師加噪聲效果更加明顯。

3. 比較了教師加噪聲和一般的正則化操作(dropout)

總結

本文想法比較簡單，就是給teacher輸出結果加噪聲，美曰其名，learn from multi teachers.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記：蒸餾網絡（Distilling the Knowledge in Neural Network）論文筆記之：Continuous Deep Q-Learning with Model-based Acceleration Deep Learning 論文筆記 (3): Deep Learning Face Attributes in the Wild 論文翻譯：2021_語音增強模型壓縮_Towards model compression for deep learning based speech enhancement 論文筆記——Channel Pruning for Accelerating Very Deep Neural Networks 論文筆記——Deep Residual Learning for Image Recognition 論文筆記之：Dueling Network Architectures for Deep Reinforcement Learning 論文筆記之：Deep Attention Recurrent Q-Network 論文筆記之：Playing Atari with Deep Reinforcement Learning Distilling the Knowledge in a Neural Network

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM