PyTorch保存模型、凍結參數等


 

此外可以參考PyTorch模型保存。https://zhuanlan.zhihu.com/p/73893187

查看模型每層輸出詳情

Keras有一個簡潔的API來查看模型的每一層輸出尺寸,這在調試網絡時非常有用。現在在PyTorch中也可以實現這個功能。

使用很簡單,如下用法:

input_size 是根據你自己的網絡模型的輸入尺寸進行設置。

pytorch-summargithub.com

3、梯度裁剪(Gradient Clipping)

nn.utils.clip_grad_norm_ 的參數:

  • parameters – 一個基於變量的迭代器,會進行梯度歸一化

  • max_norm – 梯度的最大范數

  • norm_type – 規定范數的類型,默認為L2

不橢的橢圓 提出:梯度裁剪在某些任務上會額外消耗大量的計算時間,可移步評論區查看詳情。

4、擴展單張圖片維度

因為在訓練時的數據維度一般都是 (batch_size, c, h, w),而在測試時只輸入一張圖片,所以需要擴展維度,擴展維度有多個方法:

或(感謝coldleaf 的補充)

tensor.unsqueeze(dim):擴展維度,dim指定擴展哪個維度。

tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大於1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度。

5、獨熱編碼

在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。

Convert int into one-hot formatdiscuss.pytorch.org

https://link.zhihu.com/?target=https%3A//discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

注:第11條有更簡單的方法。

6、防止驗證模型時爆顯存

驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節約內存。如果不關閉可能會爆顯存。

with torch.no_grad():    # 使用model進行預測的代碼 pass

感謝zhaz 的提醒,我把 torch.cuda.empty_cache() 的使用原因更新一下。

這是原回答:

Pytorch 訓練時無用的臨時變量可能會越來越多,導致 out of memory ,可以使用下面語句來清理這些不需要的變量。

官網 上的解釋為:

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi. torch.cuda.empty_cache()

意思就是PyTorch的緩存分配器會事先分配一些固定的顯存,即使實際上tensors並沒有使用完這些顯存,這些顯存也不能被其他應用使用。這個分配過程由第一次CUDA內存訪問觸發的。

而 torch.cuda.empty_cache() 的作用就是釋放緩存分配器當前持有的且未占用的緩存顯存,以便這些顯存可以被其他GPU應用程序中使用,並且通過 nvidia-smi命令可見。注意使用此命令不會釋放tensors占用的顯存。

對於不用的數據變量,Pytorch 可以自動進行回收從而釋放相應的顯存。

更詳細的優化可以查看 優化顯存使用 和 顯存利用問題。

7、學習率衰減

8、凍結某些層的參數

參考:Pytorch 凍結預訓練模型的某一層

在加載預訓練模型的時候,我們有時想凍結前面幾層,使其參數在訓練過程中不發生變化。

我們需要先知道每一層的名字,通過如下代碼打印:

假設前幾層信息如下:

后面的True表示該層的參數可訓練,然后我們定義一個要凍結的層的列表:

凍結方法如下:

凍結后我們再打印每層的信息:

可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓練。

最后在定義優化器時,只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9、對不同層使用不同學習率

我們對模型的不同層使用不同的學習率。

還是使用這個模型作為例子:

對 convolution1 和 convolution2 設置不同的學習率,首先將它們分開,即放到不同的列表里:

我們將模型划分為兩部分,存放到一個列表里,每部分就對應上面的一個字典,在字典里設置不同的學習率。

當這兩部分有相同的其他參數時,就將該參數放到列表外面作為全局參數,如上面的“weight_decay”。

也可以在列表外設置一個全局學習率,當各部分字典里設置了局部學習率時,就使用該學習率,否則就使用列表外的全局學習率。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM