token embeddings、segmentation embeddings、position embeddings。
解釋:http://www.mamicode.com/info-detail-2624808.html
token embeddings:每個詞用索引表示,維度(1,n,768)
segmentation embeddings:前一個句子的詞用0表示,后一個句子的詞用1表示,維度(1,n,768)
position embeddings:維度(1,n,768)
(1)使用WordPiece嵌入(Wu et al., 2016)和30,000個token的詞匯表。用##表示分詞。
(2)使用學習的positional embeddings,支持的序列長度最多為512個token。每個序列的第一個token始終是特殊分類嵌入([CLS])。對應於該token的最終隱藏狀態(即Transformer的輸出)被用作分類任務的聚合序列表示。對於非分類任務,將忽略此向量。
(3)句子對被打包成一個序列。以兩種方式區分句子。首先,用特殊標記([SEP])將它們分開。其次,添加一個learned sentence A嵌入到第一個句子的每個token中,一個sentence B嵌入到第二個句子的每個token中。
(4)對於單個句子輸入,只使用 sentence A嵌入。