姜睿喆---第一次個人編程作業


博客班級 2018級計算機和綜合實驗班
作業要求 作業要求
作業目標 采集騰訊視頻里電視劇《在一起》的全部評論信息並進行分析處理,將所采集到的評論信息做成詞雲圖,在index.html中顯示詞雲圖
作業源代碼 Github地址
學號 211814315

一、前期准備

1.建立GitHub倉庫

這里我發現原本安裝過的VSCode支持Git,便順便學習了下如何用VSCode來進行Git操作,結果發現更容易上手,而且VSCode界面更簡潔易懂,插件功能是真的強大,總歸一句話,VSCode永遠滴神!

2.《在一起》評論頁面

實現過程 預計時間
數據收集 2h
數據處理 1.5h
數據分析展示 2h

二、數據收集

最初准備通過selenium對評論頁面底部加載按鈕實現模擬點擊,將評論都加載完后再進行爬取,實際操作后發現較難實現且耗費時間。便轉換思路,通過使用正則表達式獲取評論。

通過訪問《在一起》評論頁面,按下F12並重新刷新頁面,點擊頁面底部查看更多評論可以發現

每點擊一次加載便增加一條,可以判斷出此為評論區加載項內容。右擊新標簽頁打開可以查看源碼


在頁面中可以發現評論內容,由此可以通過這些頁面來進行評論的爬取。在收集數個url進行對比后發現,頁面主要通過改變cursor和source的數值來進行改變,每加載一次更多評論,source便加一,cursor起始值為0,在查找發現后cursor在每一個頁面的

處,由此可推出下一個頁面的cursor。在確認上述頁面和url變化后通過正則表達式進行爬取,並將爬取到的評論保存至本地文檔。

具體爬取代碼見GitHub:《在一起評論爬取》.py

爬取評論結果見評論.txt

三、數據處理

在參考了幾個分詞庫后,我選擇使用jieba庫進行數據處理。首先用pip install jieba,在安裝完成后直接import jieba導入進行使用。這里也參考了不少文章進行學習jieba。學習分詞的同時對json進行一定了解。在實現分詞后,將結果按照一定格式保存為json文件,以便於之后使用。

四、數據分析展示

由於對JavaScript不熟,在參考了多個文章后,還是選擇當個cv程序員,借鑒了網上的模板進行修改。在CSDN中找到了相關代碼進行操作。簡單的網頁制作還是會的,在新建了index.html后進行H5代碼的編寫,其中加入JavaScript的代碼。在套用模板后,將之前處理后的數據代入到對應的data部分,最終實現詞雲圖。

本來還想着生成自定義形狀的詞雲圖,通用模板問題不大,然而最后發現問題貌似處在使用的圖片模板上。根據說查找的CSDN博客的評論區所說,需要用到純黑的矢量圖,好吧瞬間無語,我說怎么老半天出不來(ˉ▽ˉ;)...。

參考資料

【VScode與GitHub】10分鍾學會用Git管理自己的代碼

在 vscode 中使用 Git :拉取、提交、克隆

git新建分支及提交代碼到分支

jieba庫使用和好玩的詞雲

Python入門:jieba庫的使用

jieba中文分詞組件

json.dumps()函數解析

js讀取json文件(原生和jQuery)

基於echarts的詞雲

Echarts詞雲圖自定義圖案


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM