fasttext是文本分類的一大利器,優點:快,嗷嗷快;缺點:暫未發現。但是我在使用其做文本分類時候還是遇到了挺多坑,今天先總結一個:
網上有人說設置訓練參數的時候,ngrams設置大於2可以提高模型的精確度,打算試試,然而設置之后系統直接顯示:
floating point exception(core dumped)
解決方案,網上csdn上一堆,看不懂,直接google了,有人提出了下述解決方案,其實就是訓練模型時候多寫個bucket參數,然后設置為2000000,就行了,這里我rpoch和lr都沒有寫,按照系統默認了,然后就訓練ok了。
After experimenting with arguments I've found that specifying number of bucket
explicitly, default is 2000000, prevents the error.
classifier = fasttext.supervised('train.txt', 'model', label_prefix='__label__', epoch=25, lr=0.1, word_ngrams=2, bucket= 2000000)