統計文檔中前5個高頻詞個數並輸出

本文轉載自查看原文 2019-08-30 11:07 766 Python

import jieba

ls="中國是一個偉大的國家，是一個好的國家"
print('原始文檔為：',ls)
counts={} # 定義統計字典
words=jieba.lcut(ls)
print('分好的詞組為：',words)

for word in words:
    counts[word]=counts.get(word,0)+1
print('生成的字典為：',counts)
print('字典的元素為：',counts.items())
#字典元組轉換為列表
items=list(counts.items())
print('counts的元素生成新的列表：',items)
#列表按第2個值進行排序-降序reverse=True，默認升序 
items.sort(key=lambda x:x[1],reverse=True)

print('按元組中第二維值排序后的列表為：',items)
#轉出列表前5個
for i in range(5):
    word,count=items[i]
    print("{0:<10}---{1:>5}".format(word,count))

#------------

for word in words:
    if len(word) ==1:   #增加一個判斷是否為詞組
        continue
    else:
        counts[word] = counts.get(word,0)+1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何從大量數據中找出高頻詞如何從大量數據中找出高頻詞 [LeetCode] Top K Frequent Words 前K個高頻詞基於統計的無詞典的高頻詞抽取(三)——子串歸並基於統計的無詞典的高頻詞抽取(二)——根據LCP數組計算詞頻 NLP（二）：jieba高頻詞提取基於統計的無詞典的高頻詞抽取(一)——后綴數組字典序排序 python數據分析高頻詞提取，pyecharts詞雲制作並保存 seo與python大數據結合給文本分詞並提取高頻詞 Java查找統計一個文檔中的單詞個數