| 博客班級 | 2018 級計算機和綜合實驗班 |
|---|---|
| 作業要求 | 作業要求 |
| 作業目標 | 采集數據、分析數據、展示數據 |
| 作業源代碼 | https://github.com/Yeyuxian/first-personal-work |
| 學號 | 211804151 |
代碼總行數:92 行
耗時情況
| 過程 | 分析時間 | 利用時間 | 完成情況 |
|---|---|---|---|
| 爬取評論 | 30min | 2h | 部分完成 |
| 過濾評論 | 15min | 30min | 完成 |
| 評論拆分 | 20min | 1h | 完成 |
| json轉換 | 30min | 1h | 完成 |
| 制作詞雲圖 | 20min | 1h | 完成 |
| git上傳 | 20min | 1h | 完成 |
思路分析
-
首先爬取評論,找到評論所在服務器的地址。因為每次點擊加載更多評論都會有新的地址,所以首先得點擊幾次發現其中規律。
-
將爬取到的評論寫入txt文檔中,以便觀察以及進行接下來的操作.
-
過濾評論,打開剛剛寫的txt文檔,會發現其中有不少非中文字符以及表情,此時需要過濾掉這些字符和表情,才能進行拆分.
-
評論拆分,利用jieba將剛剛過濾好的評論進行拆分並排序,可以直觀的看到每個關鍵詞出現的次數
-
轉換成 json 文件,將拆分好的評論寫入字典后轉換成json文件
-
制作詞雲圖,利用 echarts 可以很方便地作出詞雲圖
遇到問題&解決方法
Q1. 首先遇到的問題就是用F12打開控制台后,無法很方便地找出評論的服務器地址,而且每次點擊加在更多后會發現有新的地址跳出,必須找到其中規律才能寫循環
M1. 可以在搜索欄輸入 comments 尋找

M1. 點擊加在更多后可以發現規律,除第一個外,cursor的值是爬取文本中"last"的值


M1. 最后的"&_="的值則是時間戳,獲取第一個時間戳后,之后的值則是第一個值+3之后,依次逐個+1

- 代碼如下:

Q2. 獲取到的代碼存在非中文以及表情,需要將其去除
M2. 讀取原txt文件,用if語句來過濾非中文及表情部分,並寫入新txt文件
代碼如下:

Q3. jieba庫的語法不會
M3. 上網尋找資料,網址:https://github.com/fxsjy/jieba
代碼如下:

Q4. git的語法不熟練
M4. 查詢資料,網址:https://www.cnblogs.com/MingT-L/p/14408571.html#關於數據展示詞雲圖
代碼如下:
鏈接遠程庫並克隆

創建分支並推送到遠程倉庫

推送

合並分支並再次推送

Q5. 只能實現單一集數的爬取,無法實現不同集數的爬取
M5. 未解決
成果展示

