原文:論文閱讀 | What Does BERT Learn about the Structure of Language?

論文地址: https: hal.inria.fr hal document 作者 : Ganesh Jawahar, Beno t Sagot, Djam Seddah 機構 : Inria 研究的問題: 探究BERT的深層次表征學習的論文,也就是通過實驗研究BERT的可解釋性。主要是探究在BERT的每一層都編碼了什么信息。 研究方法: 模型: 研究的模型是基於Devlin等發布的用 種語言組成 ...

2020-04-21 22:52 0 861 推薦指數:

查看詳情

Learn to See in the Dark(論文閱讀筆記)

最近做項目看了一篇論文Learn to See in the Dark》下面是一些論文筆記 概括:   這篇論文主要介紹的是在低光照的環境下用兩個標准的FCN網絡,通過控制變量法來對比不同的去噪,增加信噪比(SNR)的方案,最終找到一個很好的解決方案。下面是詳細介紹: 圖片噪聲影響 ...

Tue Jul 24 19:17:00 CST 2018 1 3071
《2019-TINYBERT DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING》-閱讀心得

摘要:預訓練語言模型如BERT等已經極大地提高了多項自然處理任務的性能,然而預訓練語言模型通常具需要很大計算資源,所以其很難在有限的資源設備上運行。為了加速推理、減小模型的尺寸而同時保留精度,首先提出了一個新穎的遷移蒸餾方法,它是一種基於遷移方法的知識蒸餾思路。利用整個新穎的KD方法,大量 ...

Thu Feb 06 00:42:00 CST 2020 0 1055
論文閱讀 | Adversarial Training for Large Neural Language Models

本文把對抗訓練用到了預訓練和微調兩個階段,對抗訓練的方法是針對embedding space,通過最大化對抗損失、最小化模型損失的方式進行對抗,在下游任務上取得了一致的效果提升。有趣的是,這種對抗訓練方法不僅能夠在BERT上有提高,而且在RoBERTa這種已經預訓練好的模型上也能有 ...

Thu Oct 15 01:01:00 CST 2020 2 780
論文閱讀 | DynaBERT: Dynamic BERT with Adaptive Width and Depth

DynaBERT: Dynamic BERT with Adaptive Width and Depth 論文中作者提出了新的訓練算法,同時對不同尺寸的子網絡進行訓練,通過該方法訓練后可以在推理階段直接對模型裁剪。依靠新的訓練算法,本文在效果上超越了眾多壓縮模型,比如DistillBERT ...

Fri May 22 18:18:00 CST 2020 0 916
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM