上一篇已經將數據抓到手了,那么來分析一下吧。這里是用python簡單處理數據,之后用EXCEL 作圖,沒錯,,,還是EXCEL。其實分析這些數據有更好的工具,比如R。。。不過目前不會啊,就先EXCEL湊活着用吧。
這里一共分析了三個方面:TOP10 word;時間與發帖量的關系,日期與發帖量的關系。
PROJECT1:TOP10 WORD
注意這里的top_words.txt是我用xlrd取出文字后保存在記事本中,去掉標點后得到的(這個羞恥的過程就不展示了。。。以后找到更好的辦法再來改寫)
#!/usr/bin/python #-*- coding : utf-8 -*- import xlrd import xlsxwriter from collections import Counter with open('top_words.txt', encoding='utf-8') as f: # print(f.read()) l = list(f.read()) print(l) word_dict = Counter(l).most_common() # print(word_dict) workbook = xlsxwriter.Workbook('top_words.xlsx') worksheet = workbook.add_worksheet() worksheet.set_column('A:A', 10) worksheet.set_column('B:B', 10) worksheet.write(0,0,'關鍵字') worksheet.write(0,1,'頻數') i = 1 num = [] for k, v in word_dict: i += 1 worksheet.write(i,0,k) worksheet.write(i,1,v) num.append(v) workbook.close() print(num)
輸出EXCEL表格如下(一部分):
簡單做個圖: