現在趨勢是高層用可解釋的模型例如 線性模型或者gbdt,下層用帶深度的embedding。
文本向量化的 word 2 vector 很不錯也有很多自己做得模型,關鍵在於語聊,模型效果差異不大。
這里有訓練好的模型,30種語言非英語,感覺語料不是很好
https://github.com/Kyubyong/wordvectors
這個項目里面有英文預料的,英文有很多語料庫例如wordbank google news,wallstreet,都是很好的語聊庫。
https://github.com/3Top/word2vec-api
我們當然用我廠自家的模型。
下面是另一片綜述的文章。
http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/