原文:论文阅读 | What Does BERT Learn about the Structure of Language?

论文地址: https: hal.inria.fr hal document 作者 : Ganesh Jawahar, Beno t Sagot, Djam Seddah 机构 : Inria 研究的问题: 探究BERT的深层次表征学习的论文,也就是通过实验研究BERT的可解释性。主要是探究在BERT的每一层都编码了什么信息。 研究方法: 模型: 研究的模型是基于Devlin等发布的用 种语言组成 ...

2020-04-21 22:52 0 861 推荐指数:

查看详情

Learn to See in the Dark(论文阅读笔记)

最近做项目看了一篇论文Learn to See in the Dark》下面是一些论文笔记 概括:   这篇论文主要介绍的是在低光照的环境下用两个标准的FCN网络,通过控制变量法来对比不同的去噪,增加信噪比(SNR)的方案,最终找到一个很好的解决方案。下面是详细介绍: 图片噪声影响 ...

Tue Jul 24 19:17:00 CST 2018 1 3071
《2019-TINYBERT DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING》-阅读心得

摘要:预训练语言模型如BERT等已经极大地提高了多项自然处理任务的性能,然而预训练语言模型通常具需要很大计算资源,所以其很难在有限的资源设备上运行。为了加速推理、减小模型的尺寸而同时保留精度,首先提出了一个新颖的迁移蒸馏方法,它是一种基于迁移方法的知识蒸馏思路。利用整个新颖的KD方法,大量 ...

Thu Feb 06 00:42:00 CST 2020 0 1055
论文阅读 | Adversarial Training for Large Neural Language Models

本文把对抗训练用到了预训练和微调两个阶段,对抗训练的方法是针对embedding space,通过最大化对抗损失、最小化模型损失的方式进行对抗,在下游任务上取得了一致的效果提升。有趣的是,这种对抗训练方法不仅能够在BERT上有提高,而且在RoBERTa这种已经预训练好的模型上也能有 ...

Thu Oct 15 01:01:00 CST 2020 2 780
论文阅读 | DynaBERT: Dynamic BERT with Adaptive Width and Depth

DynaBERT: Dynamic BERT with Adaptive Width and Depth 论文中作者提出了新的训练算法,同时对不同尺寸的子网络进行训练,通过该方法训练后可以在推理阶段直接对模型裁剪。依靠新的训练算法,本文在效果上超越了众多压缩模型,比如DistillBERT ...

Fri May 22 18:18:00 CST 2020 0 916
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM