Bert預訓練源碼

主要代碼

作用：句子切分，特殊符號處理。
主要類：BasicTokenizer, WordpieceTokenizer, FullTokenizer

BasicTokenizer.tokenize: 文本轉為unicode, 去除特殊符號，漢字前后加空格，按空格切分單詞，去掉文本重音，按標點符號切割單詞。最后生成一個list
WordpieceTokenizer.tokenize: 長度過長的單詞標記為UNK，復合詞切分，找不到的詞標記為UNK
FullTokenizer：先后調用BasicTokenizer和WordpieceTokenizer

輸入：詞典，原始文本(空行分割不同文章，一行一句)
輸出：訓練數據
作用：生成訓練數據，句子對組合，單詞mask等
入口函數main

加載詞典，加載原始文本
create_training_instances
讀取原始文本文件，做unicode轉換，中文，標點，特殊符號處理，空格切分，復合詞切分。轉換為[[[first doc first sentence],[first doc second sentence],[first doc third sentence]],[[second doc first sentence],[]],....] 這樣的結構
去除空文章，文章順序打亂
輸入的原始文本會重復使用dupe_factor次
對每一篇文章生成訓練數據create_instances_from_document
訓練語句長度限制max_seq_length，0.1的概率生成長度較小的訓練語句，增加魯棒性
句子對(A,B)隨機組合
對於一篇文章，按順序獲取n行句子，其長度總和限制為target_seq_length,
隨機選取n行中的前m行作為A
0.5的概率，B是n行中后面剩余的部分；其他情況，B是隨機選取的其他文章內容，開始位置是隨機的
文章中沒有使用的部分繼續組合(A, B)
添加CLS,SEP分隔符，生成句子向量
對句子對中的單詞做隨機mask (create_masked_lm_predictions), 隨機取num_to_predict個單詞做mask，0.8的概率標記為MASK，0.1的概率標記為原始單詞，0.1的概率標記為隨機單詞
封裝，句子對，句子id，是否為隨機下一句，mask的下標位置，mask對應的原始單詞
訓練數據序列化，存入文件。單詞轉為id，句子長度不足的后面補0。

BertConfig: 配置
BertModel：模型主體

建模主體過程：

作用：生成目標函數，加載已有參數，迭代訓練
主要函數：model_fn_builder

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Bert源碼解讀(三)之預訓練部分谷歌BERT預訓練源碼解析（一）：訓練數據生成谷歌BERT預訓練源碼解析（三）：訓練過程預訓練模型（三）-----Bert 谷歌BERT預訓練源碼解析（二）：模型構建 bert 預訓練模型路徑 Notes | Bert系列的預訓練模型關於bert預訓練模型的輸出是什么 pytorch之對預訓練的bert進行剪枝 NLP與深度學習（五）BERT預訓練模型