FastText訓練詞向量


fastText是Facebook於2016年開源的一個詞向量計算和文本分類工具,在文本分類任務中,fastText(淺層網絡)往往能取得和深度網絡相媲美的精度,卻在訓練時間上比深度網絡快許多數量級。在標准的多核CPU上, 能夠訓練10億詞級別語料庫的詞向量在10分鍾之內,能夠分類有着30萬多類別的50多萬句子在1分鍾之內。

該工具的理論基礎是以下兩篇論文:

  • Enriching Word Vectors with Subword Information:這篇論文提出了用 word n-gram 的向量之和來代替簡單的詞向量的方法,以解決簡單 word2vec 無法處理同一詞的不同形態的問題。fastText 中提供了 maxn 這個參數來確定 word n-gram 的 n 的大小。
  • Bag of Tricks for Efficient Text Classification:這篇論文提出了 fastText 算法,該算法實際上是將目前用來算 word2vec 的網絡架構做了個小修改,原先使用一個詞的上下文的所有詞向量之和來預測詞本身(CBOW 模型),現在改為用一段短文本的詞向量之和來對文本進行分類。

FastText背后的主要原理是,單詞的詞法結構會攜帶有關單詞含義的重要信息,而傳統的單詞嵌入並不會考慮這些信息,傳統的單詞嵌入會為每個單詞訓練一個唯一的單詞嵌入。這對於形態豐富的語言(德語,土耳其語)尤其重要,在這種語言中,單個單詞可能具有大量的形態形式,每種形態形式很少出現,因此很難訓練良好的詞嵌入。

FastText嘗試通過將每個單詞視為其子單詞的集合來解決此問題。為了簡單和獨立於語言,將子詞視為該詞的字符n-gram(n元)。一個單詞的向量被簡單地認為是其組成特征圖的所有向量之和。

與原始Word2Vec相比,FastText在語法任務上的表現要好得多,尤其是在訓練語料庫較小的情況下。在語義任務上,Word2Vec的性能略優於FastText。隨着訓練語料庫大小的增加,差異變得越來越小。

FastText的訓練時間明顯長於Word2Vec的Gensim版本(15min 42s vs 6min 42s on text8, 17 mil tokens, 5 epochs, and a vector size of 100)。

總的來說,word2vec有一個很大的局限性,那就是該模型無法推斷出不熟悉的單詞的向量。如果這個限制了我們,那就嘗試使用FastText模型。

FastText還有自己的預訓練詞向量

 

 

參考:https://www.biaodianfu.com/fasttext.html#:~:text=%20fastText%E6%98%AFFacebook%E4%BA%8E2016%E5%B9%B4%E5%BC%80%E6%BA%90%E7%9A%84%E4%B8%80%E4%B8%AA%E8%AF%8D%E5%90%91%E9%87%8F%E8%AE%A1%E7%AE%97%E5%92%8C%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E5%B7%A5%E5%85%B7%EF%BC%8C%E5%9C%A8%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E4%BB%BB%E5%8A%A1%E4%B8%AD%EF%BC%8CfastText%EF%BC%88%E6%B5%85%E5%B1%82%E7%BD%91%E7%BB%9C%EF%BC%89%E5%BE%80%E5%BE%80%E8%83%BD%E5%8F%96%E5%BE%97%E5%92%8C%E6%B7%B1%E5%BA%A6%E7%BD%91%E7%BB%9C%E7%9B%B8%E5%AA%B2%E7%BE%8E%E7%9A%84%E7%B2%BE%E5%BA%A6%EF%BC%8C%E5%8D%B4%E5%9C%A8%E8%AE%AD%E7%BB%83%E6%97%B6%E9%97%B4%E4%B8%8A%E6%AF%94%E6%B7%B1%E5%BA%A6%E7%BD%91%E7%BB%9C%E5%BF%AB%E8%AE%B8%E5%A4%9A%E6%95%B0%E9%87%8F%E7%BA%A7%E3%80%82,%E5%9C%A8%E6%A0%87%E5%87%86%E7%9A%84%E5%A4%9A%E6%A0%B8CPU%E4%B8%8A%EF%BC%8C%20%E8%83%BD%E5%A4%9F%E8%AE%AD%E7%BB%8310%E4%BA%BF%E8%AF%8D%E7%BA%A7%E5%88%AB%E8%AF%AD%E6%96%99%E5%BA%93%E7%9A%84%E8%AF%8D%E5%90%91%E9%87%8F%E5%9C%A810%E5%88%86%E9%92%9F%E4%B9%8B%E5%86%85%EF%BC%8C%E8%83%BD%E5%A4%9F%E5%88%86%E7%B1%BB%E6%9C%89%E7%9D%8030%E4%B8%87%E5%A4%9A%E7%B1%BB%E5%88%AB%E7%9A%8450%E5%A4%9A%E4%B8%87%E5%8F%A5%E5%AD%90%E5%9C%A81%E5%88%86%E9%92%9F%E4%B9%8B%E5%86%85%E3%80%82


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM