關於bert的輸出是什么

本文轉載自查看原文 2021-07-15 17:27 788 自然語言處理

我們在使用Bert進行微調的時候，通常都會使用bert的隱含層的輸出，然后再接自己的任務頭，那么，我們必須先知道bert的輸出都是什么，本文接下來就具體記錄下bert的輸出相關的知識。
由於我們微調bert的時候一般選用的是中文版的模型，因此，接下來我們加載的就是中文預訓練模型bert。直接看代碼：

import torch
from transformers import BertTokenizer, BertModel

bertModel = BertModel.from_pretrained('bert-base-chinese', output_hidden_states=True, output_attentions=True)
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = '讓我們來看一下bert的輸出都有哪些'
input_ids = torch.tensor([tokenizer.encode(text)]).long()
outputs = bertModel(input_ids)
print(len(outputs))
print(outputs.keys())
print(outputs['last_hidden_state'].shape)
print(outputs['pooler_output'].shape)
print(len(outputs['hidden_states']))
print(len(outputs['attentions']))

結果：

4
odict_keys(['last_hidden_state', 'pooler_output', 'hidden_states', 'attentions'])
torch.Size([1, 18, 768])
torch.Size([1, 768])
13
12

可以看出，bert的輸出是由四部分組成：
last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一層輸出的隱藏狀態。（通常用於命名實體識別）
pooler_output：shape是(batch_size, hidden_size)，這是序列的第一個token(classification token)的最后一層的隱藏狀態，它是由線性層和Tanh激活函數進一步處理的。（通常用於句子分類，至於是使用這個表示，還是使用整個輸入序列的隱藏狀態序列的平均化或池化，視情況而定）
hidden_states：這是輸出的一個可選項，如果輸出，需要指定config.output_hidden_states=True,它也是一個元組，它的第一個元素是embedding，其余元素是各層的輸出，每個元素的形狀是(batch_size, sequence_length, hidden_size)
attentions：這也是輸出的一個可選項，如果輸出，需要指定config.output_attentions=True,它也是一個元組，它的元素是每一層的注意力權重，用於計算self-attention heads的加權平均值。

參考：https://blog.csdn.net/sunyueqinghit/article/details/105157609

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於bert預訓練模型的輸出是什么 bert-as-service輸出分類結果 transformers 中，bert模型的輸出獲取bert所有隱層的輸出圖示詳解BERT模型的輸入與輸出什么是BERT？ PWM互補輸出是什么 php的標准輸入與輸出是什么？控制台輸出是什么回事玩爛bert--集成輸出預測分類、特征向量、參數凍結、推理