huggingface tokenizer错误

本文转载自查看原文 2021-05-11 14:48 1229

如果继承了Tokenizer例如mTokenizer(GPT2Tokenizer)，在__init__中加入了一些新tokens，这样在save之后from_pretrained时不能用mTokenizer.from_pretrained，会报错。

AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.

这是因为from_pretrained调用时是先初始化实例，再从本地文件中加载词表，因此mTokenizer初始化时会加入新tokens，而从本地词表中又会再加一次，导致了重复。最好的做法是把加新tokens的过程移出__init__。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 tokenizer.encode和tokenizer.tokenize NLP经典网站huggingface 1.5.3 什么是Tokenizer-分词 huggingface 🤗 Transformers的简单使用 huggingface模型下载方法分词器(Tokenizer) keras.preprocessing.text.Tokenizer Huggingface中的BERT模型的使用方法 encode和encode_plus和tokenizer的区别 HuggingFace-transformers系列的介绍以及在下游任务中的使用