爬蟲再探實戰(五)———爬取APP數據——超級課程表【二】——詞頻分析


    上一篇已經將數據抓到手了,那么來分析一下吧。這里是用python簡單處理數據,之后用EXCEL 作圖,沒錯,,,還是EXCEL。其實分析這些數據有更好的工具,比如R。。。不過目前不會啊,就先EXCEL湊活着用吧。

    這里一共分析了三個方面:TOP10 word;時間與發帖量的關系,日期與發帖量的關系。

    PROJECT1:TOP10 WORD

    注意這里的top_words.txt是我用xlrd取出文字后保存在記事本中,去掉標點后得到的(這個羞恥的過程就不展示了。。。以后找到更好的辦法再來改寫)

#!/usr/bin/python
#-*- coding : utf-8 -*-
import xlrd
import xlsxwriter
from collections import Counter

with open('top_words.txt', encoding='utf-8') as f:
	# print(f.read())
	l = list(f.read())
	print(l)
word_dict = Counter(l).most_common()
# print(word_dict)
workbook = xlsxwriter.Workbook('top_words.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 10)
worksheet.set_column('B:B', 10)
worksheet.write(0,0,'關鍵字')
worksheet.write(0,1,'頻數')
i = 1
num = []
for k, v in word_dict:
	i += 1
	worksheet.write(i,0,k)
	worksheet.write(i,1,v)
	num.append(v)
workbook.close()
print(num)

    輸出EXCEL表格如下(一部分):

    簡單做個圖:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM