Doc2bow的使用


Doc2bow是封装于Gensim中的方法,主要是实现bow模型

bow模型(词袋)模型使用一组单词(无序)来表示一个句子

先根据语料构建词典

每个句子可以用词典长度的一维向量来表示,向量不关心单词出现的顺序,只表示该位置的单词在样本中出现的频率。

gensim.corpora.Dictionary---根据语料库构建词典dictionary

dictionary.doc2bow---将每个句子样本表示成向量

similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---构建相似度矩阵

使用:similarity[vector]---获取vector的相似度结果,之后可以进行排序,取前n个

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM