PyTorch保存模型、凍結參數等

本文轉載自查看原文 2022-04-19 15:28 1125 PyTorch凍結參數

此外可以參考PyTorch模型保存。https://zhuanlan.zhihu.com/p/73893187

查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸，這在調試網絡時非常有用。現在在PyTorch中也可以實現這個功能。

使用很簡單，如下用法：

input_size 是根據你自己的網絡模型的輸入尺寸進行設置。

pytorch-summargithub.com

3、梯度裁剪（Gradient Clipping）

nn.utils.clip_grad_norm_ 的參數：

parameters – 一個基於變量的迭代器，會進行梯度歸一化
max_norm – 梯度的最大范數
norm_type – 規定范數的類型，默認為L2

不橢的橢圓提出：梯度裁剪在某些任務上會額外消耗大量的計算時間，可移步評論區查看詳情。

4、擴展單張圖片維度

因為在訓練時的數據維度一般都是 (batch_size, c, h, w)，而在測試時只輸入一張圖片，所以需要擴展維度，擴展維度有多個方法：

或

或（感謝coldleaf 的補充）

tensor.unsqueeze(dim)：擴展維度，dim指定擴展哪個維度。

tensor.squeeze(dim)：去除dim指定的且size為1的維度，維度大於1時，squeeze()不起作用，不指定dim時，去除所有size為1的維度。

5、獨熱編碼

在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot，所以不用手動轉化，而使用MSE需要手動轉化成onehot編碼。

Convert int into one-hot formatdiscuss.pytorch.org

https://link.zhihu.com/?target=https%3A//discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

注：第11條有更簡單的方法。

6、防止驗證模型時爆顯存

驗證模型時不需要求導，即不需要梯度計算，關閉autograd，可以提高速度，節約內存。如果不關閉可能會爆顯存。

with torch.no_grad():    # 使用model進行預測的代碼 pass

感謝zhaz 的提醒，我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答：

Pytorch 訓練時無用的臨時變量可能會越來越多，導致 out of memory ，可以使用下面語句來清理這些不需要的變量。

官網上的解釋為：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi. torch.cuda.empty_cache()

意思就是PyTorch的緩存分配器會事先分配一些固定的顯存，即使實際上tensors並沒有使用完這些顯存，這些顯存也不能被其他應用使用。這個分配過程由第一次CUDA內存訪問觸發的。

而 torch.cuda.empty_cache() 的作用就是釋放緩存分配器當前持有的且未占用的緩存顯存，以便這些顯存可以被其他GPU應用程序中使用，並且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors占用的顯存。

對於不用的數據變量，Pytorch 可以自動進行回收從而釋放相應的顯存。

更詳細的優化可以查看優化顯存使用和顯存利用問題。

7、學習率衰減

8、凍結某些層的參數

參考：Pytorch 凍結預訓練模型的某一層

在加載預訓練模型的時候，我們有時想凍結前面幾層，使其參數在訓練過程中不發生變化。

我們需要先知道每一層的名字，通過如下代碼打印：

假設前幾層信息如下：

后面的True表示該層的參數可訓練，然后我們定義一個要凍結的層的列表：

凍結方法如下：

凍結后我們再打印每層的信息：

可以看到前兩層的weight和bias的requires_grad都為False，表示它們不可訓練。

最后在定義優化器時，只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9、對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子：

對 convolution1 和 convolution2 設置不同的學習率，首先將它們分開，即放到不同的列表里：

我們將模型划分為兩部分，存放到一個列表里，每部分就對應上面的一個字典，在字典里設置不同的學習率。

當這兩部分有相同的其他參數時，就將該參數放到列表外面作為全局參數，如上面的“weight_decay”。

也可以在列表外設置一個全局學習率，當各部分字典里設置了局部學習率時，就使用該學習率，否則就使用列表外的全局學習率。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pytorch 模型參數保存 + 如何查看模型參數 pytorch 讀取和保存模型參數 pytorch如何凍結某層參數的實現 pytorch_模型參數-保存，加載，打印 Tensorflow 模型的保存、讀取和凍結、執行【colab pytorch】保存模型 pytorch 模型加載與保存 pytorch 狀態字典:state_dict 模型和參數保存 pytorch加載和保存模型 Pytorch 模型的加載與保存