上一篇已經將數據抓到手了,那么來分析一下吧。這里是用python簡單處理數據,之后用EXCEL 作圖,沒錯,,,還是EXCEL。其實分析這些數據有更好的工具,比如R。。。不過目前不會啊,就先EXCEL湊活着用吧。
這里一共分析了三個方面:TOP10 word;時間與發帖量的關系,日期與發帖量的關系。
PROJECT1:TOP10 WORD
注意這里的top_words.txt是我用xlrd取出文字后保存在記事本中,去掉標點后得到的(這個羞恥的過程就不展示了。。。以后找到更好的辦法再來改寫)
#!/usr/bin/python
#-*- coding : utf-8 -*-
import xlrd
import xlsxwriter
from collections import Counter
with open('top_words.txt', encoding='utf-8') as f:
# print(f.read())
l = list(f.read())
print(l)
word_dict = Counter(l).most_common()
# print(word_dict)
workbook = xlsxwriter.Workbook('top_words.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 10)
worksheet.set_column('B:B', 10)
worksheet.write(0,0,'關鍵字')
worksheet.write(0,1,'頻數')
i = 1
num = []
for k, v in word_dict:
i += 1
worksheet.write(i,0,k)
worksheet.write(i,1,v)
num.append(v)
workbook.close()
print(num)
輸出EXCEL表格如下(一部分):

簡單做個圖:


