gensim的LDA算法中很容易提取到每篇文章的主題分布矩陣,但是一般地還需要進一步獲取每篇文章歸屬到哪個主題概率最大的數據,這個在檢索gensim文檔和網絡有關文章后,發現竟然沒有。
簡單寫了一下。
#打印每篇文檔最高概率主題
for i in lda.get_document_topics(corpus)[:]:
listj=[]
for j in i:
listj.append(j[1])
bz=listj.index(max(listj))
#print(i[bz][0],i,listj,listj.index(max(listj)))
print(i[bz][0])