huggingface tokenizer錯誤

本文轉載自查看原文 2021-05-11 14:48 1229

如果繼承了Tokenizer例如mTokenizer(GPT2Tokenizer)，在__init__中加入了一些新tokens，這樣在save之后from_pretrained時不能用mTokenizer.from_pretrained，會報錯。

AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.

這是因為from_pretrained調用時是先初始化實例，再從本地文件中加載詞表，因此mTokenizer初始化時會加入新tokens，而從本地詞表中又會再加一次，導致了重復。最好的做法是把加新tokens的過程移出__init__。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 tokenizer.encode和tokenizer.tokenize NLP經典網站huggingface 1.5.3 什么是Tokenizer-分詞 huggingface 🤗 Transformers的簡單使用 huggingface模型下載方法分詞器(Tokenizer) keras.preprocessing.text.Tokenizer Huggingface中的BERT模型的使用方法 encode和encode_plus和tokenizer的區別 HuggingFace-transformers系列的介紹以及在下游任務中的使用