word to vector 文本向量化


現在趨勢是高層用可解釋的模型例如 線性模型或者gbdt,下層用帶深度的embedding。

文本向量化的 word 2 vector 很不錯也有很多自己做得模型,關鍵在於語聊,模型效果差異不大。


這里有訓練好的模型,30種語言非英語,感覺語料不是很好

https://github.com/Kyubyong/wordvectors


這個項目里面有英文預料的,英文有很多語料庫例如wordbank google news,wallstreet,都是很好的語聊庫。

https://github.com/3Top/word2vec-api


我們當然用我廠自家的模型。


下面是另一片綜述的文章。


http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/

https://www.tensorflow.org/tutorials/word2vec


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM