Doc2bow是封裝於Gensim中的方法,主要是實現bow模型
bow模型(詞袋)模型使用一組單詞(無序)來表示一個句子
先根據語料構建詞典
每個句子可以用詞典長度的一維向量來表示,向量不關心單詞出現的順序,只表示該位置的單詞在樣本中出現的頻率。
gensim.corpora.Dictionary---根據語料庫構建詞典dictionary
dictionary.doc2bow---將每個句子樣本表示成向量
similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---構建相似度矩陣
使用:similarity[vector]---獲取vector的相似度結果,之后可以進行排序,取前n個