博客班級 | 2018 級計算機和綜合實驗班 |
---|---|
作業要求 | 作業要求 |
作業目標 | 采集數據、分析數據、展示數據 |
作業源代碼 | https://github.com/Yeyuxian/first-personal-work |
學號 | 211804151 |
代碼總行數:92 行
耗時情況
過程 | 分析時間 | 利用時間 | 完成情況 |
---|---|---|---|
爬取評論 | 30min | 2h | 部分完成 |
過濾評論 | 15min | 30min | 完成 |
評論拆分 | 20min | 1h | 完成 |
json轉換 | 30min | 1h | 完成 |
制作詞雲圖 | 20min | 1h | 完成 |
git上傳 | 20min | 1h | 完成 |
思路分析
-
首先爬取評論,找到評論所在服務器的地址。因為每次點擊加載更多評論都會有新的地址,所以首先得點擊幾次發現其中規律。
-
將爬取到的評論寫入txt文檔中,以便觀察以及進行接下來的操作.
-
過濾評論,打開剛剛寫的txt文檔,會發現其中有不少非中文字符以及表情,此時需要過濾掉這些字符和表情,才能進行拆分.
-
評論拆分,利用jieba將剛剛過濾好的評論進行拆分並排序,可以直觀的看到每個關鍵詞出現的次數
-
轉換成 json 文件,將拆分好的評論寫入字典后轉換成json文件
-
制作詞雲圖,利用 echarts 可以很方便地作出詞雲圖