Doc2bow的使用


Doc2bow是封裝於Gensim中的方法,主要是實現bow模型

bow模型(詞袋)模型使用一組單詞(無序)來表示一個句子

先根據語料構建詞典

每個句子可以用詞典長度的一維向量來表示,向量不關心單詞出現的順序,只表示該位置的單詞在樣本中出現的頻率。

gensim.corpora.Dictionary---根據語料庫構建詞典dictionary

dictionary.doc2bow---將每個句子樣本表示成向量

similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---構建相似度矩陣

使用:similarity[vector]---獲取vector的相似度結果,之后可以進行排序,取前n個

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM