标签【预训练模型】

自然语言处理中预训练模型一览

预训练模型的梳理总结摘要本报告将从以下几个方面梳理预训练模型，陈述预训练(特指nlp领域)的what和how，总结预训练加微调模式的好处和弊端。通过时间线的方式梳理最近两年来 ...

Bert通过双向LM处理语言理解问题，GPT则通过单向LM解决生成问题，那如果既想拥有BERT的双向理解能力，又想做生成嘞？成年人才不要做选择！这类需求，主要包括seq2seq中生成对输入有强依赖的场 ...

摘要：为了更深入理解千亿参数的盘古大模型，华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦。谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的“前世今生”，以及它背后的艰难往事。本文 ...

之前看过一条评论说Bert提出了很好的双向语言模型的预训练以及下游迁移的框架，但是它提出的各种训练方式槽点较多，或多或少都有优化的空间。这一章就训练方案的改良，我们来聊聊RoBERTa和SpanBER ...

本节介绍基于Keras的使用预训练模型方法想要将深度学习应用于小型图像数据集，一种常用且非常高效的方法是使用预训练网络。预训练网络(pretrained network)是一个保存好的网络，之前已 ...

模型蒸馏的目标主要用于模型的线上部署，解决Bert太大，推理太慢的问题。因此用一个小模型去逼近大模型的效果，实现的方式一般是Teacher-Stuent框架，先用大模型（Teacher）去对样本进行拟 ...

摘要：LayoutLM模型利用大规模无标注文档数据集进行文本与版面的联合预训练，在多个下游的文档理解任务上取得了领先的结果。本文分享自华为云社区《论文解读系列二十五：LayoutLM: 面向 ...

摘要： 4月25日，华为云发布盘古系列超大规模预训练模型，包括30亿参数的全球最大视觉（CV）预训练模型，以及与循环智能、鹏城实验室联合开发的千亿参数、40TB训练数据的全球最大中文语言（NLP） ...

保姆级带你深入阅读NAS-BERT

摘要：本文用权重共享的one-shot的NAS方式对BERT做NAS搜索。本文分享自华为云社区《[NAS论文][Transformer][预训练模型]精读NAS-BERT》，作者：苏道。 ...

基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题 MASK的不一致性：MASK只在预训练任务中存在，在微调中不存在，Bert只是通过替换部 ...