huggingface tokenizer錯誤


如果繼承了Tokenizer例如mTokenizer(GPT2Tokenizer),在__init__中加入了一些新tokens,這樣在save之后from_pretrained時不能用mTokenizer.from_pretrained,會報錯。

AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.

這是因為from_pretrained調用時是先初始化實例,再從本地文件中加載詞表,因此mTokenizer初始化時會加入新tokens,而從本地詞表中又會再加一次,導致了重復。最好的做法是把加新tokens的過程移出__init__。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM