python 找出一篇文章中出現次數最多的10個單詞


#!/usr/bin/python
#Filename: readlinepy.py

import sys,re
urldir=r"C:\python27\a.txt"
distone={}
numTen=[]

#先文檔變成一個字典
f=open(urldir,'r')
for line in f.readlines():
#去掉非字符的符號
    line = re.sub('\W'," ",line)    
    lineone=line.split()
    for keyone in lineone:
        if not distone.get(keyone):
            distone[keyone]=1            
        else:
            distone[keyone]+=1
f.close()

#整理前10出現的單詞的次數

for v in distone.values():
    if v not in numTen:
        numTen.append(v)
numTen.sort()
numTen=numTen[-10:]

#將字典轉為列表,其其實這個可以不轉。直接遍歷也行,之前沒有想到同時出現的怎么辦。

distone = sorted(distone.iteritems(),key=lambda d:d[1],reverse = True )

#最后遍歷,可能出現的次數一樣的。

for i in distone:
    if i[1] in numTen:
        print i

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM