Pytorch Pretrained Bert 學習筆記

本文轉載自查看原文 2020-10-09 10:52 1713 NLP/ pytorch/ 工具/ 自然語言處理

經常做NLP任務，要想獲得好一點的准確率，需要一個與訓練好的embedding模型。

參考：github

Install

pip install pytorch-pretrained-bert

Usage

BertTokenizer

BertTokenizer會分割輸入的句子，便於后面嵌入。

import torch
from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM

# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenized input
text = "Who was Jim Henson ? Jim Henson was a puppeteer"
tokenized_text = tokenizer.tokenize(text)

對於找不到的詞，會限制最大長度進行分割。

BertModel

tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text))

將上面的列表轉為tensor，並傳給bertmodel

model = BertModel.from_pretrained('bert-base-uncased')
model.eval()

# Predict hidden states features for each layer
encoded_layers, _ = model(tokens_tensor, segments_tensors)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pretrained models for Pytorch (Work in progress) 【pytorch】pytorch學習筆記（一） sentence-bert學習筆記 NLP學習筆記16---transformer、bert pytorch學習筆記 Pytorch學習筆記（一）——簡介【pytorch】學習筆記（一）-張量 PyTorch學習筆記之DataLoaders Pytorch學習筆記（二）——Tensor pytorch學習筆記