原文:論文閱讀 | DynaBERT: Dynamic BERT with Adaptive Width and Depth

DynaBERT: Dynamic BERT with Adaptive Width and Depth 論文中作者提出了新的訓練算法,同時對不同尺寸的子網絡進行訓練,通過該方法訓練后可以在推理階段直接對模型裁剪。依靠新的訓練算法,本文在效果上超越了眾多壓縮模型,比如DistillBERT TinyBERT以及LayerDrop后的模型。 論文對於BERT的壓縮流程是這樣的: 訓練時,對寬度和深度 ...

2020-05-22 10:18 0 916 推薦指數:

查看詳情

論文閱讀 | Adaptive Attention Span in Transformers

論文地址:https://arxiv.org/abs/1905.07799?context=cs.LG 研究的問題: 相對於LSTM來說,Transformer幾乎在所有的NLP任務上都能勝出。但是有一點,Transformer的時間復雜度是O(n^2)的,因為對於每一步,它都需要計算 ...

Mon Apr 20 06:40:00 CST 2020 0 978
論文閱讀 | Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

簡述 在文本語義相似度等句子對的回歸任務上,BERT , RoBERTa 拿到sota。 但是,它要求兩個句子都被輸入到網絡中,從而導致巨大開銷:從10000個句子集合中找到最相似的sentence-pair需要進行大約5000萬個推理計算(約65小時)。 BERT不適合語義相似度搜索 ...

Thu Dec 12 06:47:00 CST 2019 0 2549
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM