关于warm up（transformers.get_linear_schedule_with_warmup）

本文转载自查看原文 2021-06-01 11:42 323 深度学习/ pytorch

基本使用

transformers：2.10.0

这里就不使用pytorch中的dataset和dataloader了，简单的模拟下：

from transformers import AdanW, get_linear_schedule_with_warmup

optimizer = AdamW(参数, lr=lr, eps=adam_epsilon)
len_dataset = 3821 # 可以根据pytorch中的len(Dataset)计算
epoch = 30
batch_size = 32
total_steps = (len_dataset // batch_size) * epoch if len_dataset % batch_size = 0 else (len_dataset // batch_size + 1) * epoch # 每一个epoch中有多少个step可以根据len(DataLoader)计算：total_steps = len(DataLoader) * epoch

warm_up_ratio = 0.1 # 定义要预热的step
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps = warm_up_ratio * total_steps, num_training_steps = total_steps)

为什么要使用warm up

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳
有助于保持模型深层的稳定性

具体可以去看下知乎：https://www.zhihu.com/question/338066667

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 学习率预热(transformers.get_linear_schedule_with_warmup) XCTF warmup write up Warm-up和Cos设置LR 《Learning to warm up cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks》论文阅读 [转] Transformer中warm-up和LayerNorm的重要性探究 Sentinel基本使用--基于QPS流量控制(二), 采用Warm Up预热/冷启动方式控制突增流量 schedule XCTF warmup cold boot and warm boot. Transformers 简介（上）