tokenizer.encode和tokenizer.tokenize

本文轉載自查看原文 2021-04-29 13:51 814 pytorch

一個是返回token，一個是返回其在字典中的id，如下

def bert_():
    model_name = 'bert-base-chinese'
    MODEL_PATH = 'D:/xhzy-work/PURE/models/bert-base-chinese/'

    # a.通過詞典導入分詞器
    tokenizer = BertTokenizer.from_pretrained(model_name)
    # b. 導入配置文件
    model_config = BertConfig.from_pretrained(model_name)
    # 修改配置
    model_config.output_hidden_states = True
    model_config.output_attentions = True
    # 通過配置和路徑導入模型
    bert_model = BertModel.from_pretrained(MODEL_PATH, config=model_config)
    #sen_code = tokenizer.encode_plus('我不喜歡這世界', '我只喜歡你')
    sen_code = tokenizer.encode("自然語")
    print("sen_code",sen_code)
    sen_code0=tokenizer.tokenize("自然語")
    print("sen_code0", sen_code0)

    # input_ids = torch.tensor(tokenizer.encode("自然語")).unsqueeze(0)
    # print("input_ids",input_ids)
    # outputs = bert_model(input_ids)
    # print("outputs",outputs)
    # sequence_output = outputs[0]
    # pooled_output = outputs[1]
    # print("outputs",outputs)
    # print("sequence_output",sequence_output.shape)  ## 字向量
    # print("pooled_output",pooled_output.shape)  ## 句向量
    # print('tokenizer.cls_token',tokenizer.cls_token)


if __name__ == '__main__':
    bert_()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 encode和encode_plus和tokenizer的區別 1.5.3 什么是Tokenizer-分詞 keras.preprocessing.text.Tokenizer 分詞器(Tokenizer) huggingface tokenizer錯誤 Pytorch tokenizer使用及補充vocab詞匯表 Transformer中的Tokenizer分詞器使用學習 ImportError: cannot import name 'Tokenizer' from 'keras_bert' 使用Pytorch運行過去別人深度學習的代碼出現：No module named 'tokenizer' 7-15 切分表達式——寫個tokenizer吧 (20分)