| 博客班級 | 2018級計算機和綜合實驗班 |
|---|---|
| 作業要求 | 作業要求 |
| 作業目標 | 采集騰訊視頻里電視劇《在一起》的全部評論信息並進行分析處理,將所采集到的評論信息做成詞雲圖,在index.html中顯示詞雲圖 |
| 作業源代碼 | Github地址 |
| 學號 | 211814315 |
一、前期准備
1.建立GitHub倉庫
這里我發現原本安裝過的VSCode支持Git,便順便學習了下如何用VSCode來進行Git操作,結果發現更容易上手,而且VSCode界面更簡潔易懂,插件功能是真的強大,總歸一句話,VSCode永遠滴神!
2.《在一起》評論頁面
| 實現過程 | 預計時間 |
|---|---|
| 數據收集 | 2h |
| 數據處理 | 1.5h |
| 數據分析展示 | 2h |
二、數據收集
最初准備通過selenium對評論頁面底部加載按鈕實現模擬點擊,將評論都加載完后再進行爬取,實際操作后發現較難實現且耗費時間。便轉換思路,通過使用正則表達式獲取評論。
通過訪問《在一起》評論頁面,按下F12並重新刷新頁面,點擊頁面底部查看更多評論可以發現

每點擊一次加載便增加一條,可以判斷出此為評論區加載項內容。右擊新標簽頁打開可以查看源碼


在頁面中可以發現評論內容,由此可以通過這些頁面來進行評論的爬取。在收集數個url進行對比后發現,頁面主要通過改變cursor和source的數值來進行改變,每加載一次更多評論,source便加一,cursor起始值為0,在查找發現后cursor在每一個頁面的

處,由此可推出下一個頁面的cursor。在確認上述頁面和url變化后通過正則表達式進行爬取,並將爬取到的評論保存至本地文檔。
具體爬取代碼見GitHub:《在一起評論爬取》.py
爬取評論結果見評論.txt
三、數據處理
在參考了幾個分詞庫后,我選擇使用jieba庫進行數據處理。首先用pip install jieba,在安裝完成后直接import jieba導入進行使用。這里也參考了不少文章進行學習jieba。學習分詞的同時對json進行一定了解。在實現分詞后,將結果按照一定格式保存為json文件,以便於之后使用。
四、數據分析展示
由於對JavaScript不熟,在參考了多個文章后,還是選擇當個cv程序員,借鑒了網上的模板進行修改。在CSDN中找到了相關代碼進行操作。簡單的網頁制作還是會的,在新建了index.html后進行H5代碼的編寫,其中加入JavaScript的代碼。在套用模板后,將之前處理后的數據代入到對應的data部分,最終實現詞雲圖。

本來還想着生成自定義形狀的詞雲圖,通用模板問題不大,然而最后發現問題貌似處在使用的圖片模板上。根據說查找的CSDN博客的評論區所說,需要用到純黑的矢量圖,好吧瞬間無語,我說怎么老半天出不來(ˉ▽ˉ;)...。
