標簽【大模型】 - 碼上歡樂

花費 16 ms

摘要：近來，增大模型規模成為了提升模型性能的主要手段。特別是NLP領域的自監督預訓練語言模型，規模越來越大，從GPT3的1750億參數，到Switch Transformer的16000億參數，又 ...

摘要：千億參數量的中文大規模預訓練語言模型時代到來。本文分享自華為雲社區《 MindSpore開源框架加持，如何「煉出」首個千億參數、TB級內存的中文預訓練語言模型？》，原文作者：cheng ...