word2vec參數


 

 

   架構:skip-gram(慢、對罕見字有利)vs CBOW(快)

·         訓練算法:分層softmax(對罕見字有利)vs 負采樣(對常見詞和低緯向量有利)

  負例采樣准確率提高,速度會慢,不使用negative sampling的word2vec本身非常快,但是准確性並不高

·         欠采樣頻繁詞:可以提高結果的准確性和速度(適用范圍1e-3到1e-5)

·         文本(window)大小:skip-gram通常在10附近,CBOW通常在5附近

 

 

可以看出,skip-gram進行預測的次數是要多於cbow的:因為每個詞在作為中心詞時,都要使用周圍詞進行預測一次。這樣相當於比cbow的方法多進行了K次(假設K為窗口大小)

,因此時間的復雜度為O(KV),訓練時間要比cbow要長。

 

用gensim函數庫訓練Word2Vec模型有很多配置參數。這里對gensim文檔的Word2Vec函數的參數說明進行翻譯,以便不時之需。

 

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5min_count=5max_vocab_size=Nonesample=0.001,seed=1workers=3,min_alpha=0.0001sg=0hs=0negative=5,cbow_mean=1hashfxn=<built-in function hash>,iter=5,null_word=0trim_rule=Nonesorted_vocab=1batch_words=10000)

參數:

 

·  sentences:可以是一個·ist,對於大語料集,建議使用BrownCorpus,Text8Corpus或·ineSentence構建。
·  sg: 用於設置訓練算法,默認為0,對應CBOW算法;sg=1則采用skip-gram算法。
·  size:是指特征向量的維度,默認為100。大的size需要更多的訓練數據,但是效果會更好. 推薦值為幾十到幾百。
·  window:表示當前詞與預測詞在一個句子中的最大距離是多少
·  alpha: 是學習速率
·  seed:用於隨機數發生器。與初始化詞向量有關。
·  min_count: 可以對字典做截斷. 詞頻少於min_count次數的單詞會被丟棄掉, 默認值為5
·  max_vocab_size: 設置詞向量構建期間的RAM限制。如果所有獨立單詞個數超過這個,則就消除掉其中最不頻繁的一個。每一千萬個單詞需要大約1GB的RAM。設置成None則沒有限制。
·  sample: 高頻詞匯的隨機降采樣的配置閾值,默認為1e-3,范圍是(0,1e-5)
·  workers參數控制訓練的並行數。
·  hs: 如果為1則會采用hierarchica·softmax技巧。 如果設置為0(defau·t),則negative sampling會被使用。
·  negative: 如果>0,則會采用negativesamp·ing,用於設置多少個noise words
·  cbow_mean: 如果為0,則采用上下文詞向量的和,如果為1(defau·t)則采用均值。只有使用CBOW的時候才起作用。
·  hashfxn: hash函數來初始化權重。默認使用python的hash函數
·  iter: 迭代次數,默認為5
·  trim_rule: 用於設置詞匯表的整理規則,指定那些單詞要留下,哪些要被刪除。可以設置為None(min_count會被使用)或者一個接受()並返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函數。
·  sorted_vocab: 如果為1(defau·t),則在分配word index 的時候會先對單詞基於頻率降序排序。
·  batch_words:每一批的傳遞給線程的單詞的數量,默認為10000

 

Text8Corpus

# the entire corpus is one gigantic line -- there are no sentence marks at all
# so just split the sequence of tokens arbitrarily: 1 sentence = 1000 tokens 
 
標准的WordSim353 數據 作為word2vec評價指標
自我感覺還是用具體的task去衡量吧。。。
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM