原文:论文阅读 | DynaBERT: Dynamic BERT with Adaptive Width and Depth

DynaBERT: Dynamic BERT with Adaptive Width and Depth 论文中作者提出了新的训练算法,同时对不同尺寸的子网络进行训练,通过该方法训练后可以在推理阶段直接对模型裁剪。依靠新的训练算法,本文在效果上超越了众多压缩模型,比如DistillBERT TinyBERT以及LayerDrop后的模型。 论文对于BERT的压缩流程是这样的: 训练时,对宽度和深度 ...

2020-05-22 10:18 0 916 推荐指数:

查看详情

论文阅读 | Adaptive Attention Span in Transformers

论文地址:https://arxiv.org/abs/1905.07799?context=cs.LG 研究的问题: 相对于LSTM来说,Transformer几乎在所有的NLP任务上都能胜出。但是有一点,Transformer的时间复杂度是O(n^2)的,因为对于每一步,它都需要计算 ...

Mon Apr 20 06:40:00 CST 2020 0 978
论文阅读 | Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

简述 在文本语义相似度等句子对的回归任务上,BERT , RoBERTa 拿到sota。 但是,它要求两个句子都被输入到网络中,从而导致巨大开销:从10000个句子集合中找到最相似的sentence-pair需要进行大约5000万个推理计算(约65小时)。 BERT不适合语义相似度搜索 ...

Thu Dec 12 06:47:00 CST 2019 0 2549
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM