姜睿喆---第一次個人編程作業

本文轉載自查看原文 2021-02-20 23:16 241

博客班級	2018級計算機和綜合實驗班
作業要求	作業要求
作業目標	采集騰訊視頻里電視劇《在一起》的全部評論信息並進行分析處理，將所采集到的評論信息做成詞雲圖，在index.html中顯示詞雲圖
作業源代碼	Github地址
學號	211814315

一、前期准備

1.建立GitHub倉庫

這里我發現原本安裝過的VSCode支持Git，便順便學習了下如何用VSCode來進行Git操作，結果發現更容易上手，而且VSCode界面更簡潔易懂，插件功能是真的強大，總歸一句話，VSCode永遠滴神！

2.《在一起》評論頁面

實現過程	預計時間
數據收集	2h
數據處理	1.5h
數據分析展示	2h

二、數據收集

最初准備通過selenium對評論頁面底部加載按鈕實現模擬點擊，將評論都加載完后再進行爬取，實際操作后發現較難實現且耗費時間。便轉換思路，通過使用正則表達式獲取評論。

通過訪問《在一起》評論頁面，按下F12並重新刷新頁面，點擊頁面底部查看更多評論可以發現

每點擊一次加載便增加一條，可以判斷出此為評論區加載項內容。右擊新標簽頁打開可以查看源碼

在頁面中可以發現評論內容，由此可以通過這些頁面來進行評論的爬取。在收集數個url進行對比后發現，頁面主要通過改變cursor和source的數值來進行改變，每加載一次更多評論，source便加一，cursor起始值為0，在查找發現后cursor在每一個頁面的

處，由此可推出下一個頁面的cursor。在確認上述頁面和url變化后通過正則表達式進行爬取，並將爬取到的評論保存至本地文檔。

具體爬取代碼見GitHub：《在一起評論爬取》.py

爬取評論結果見評論.txt

三、數據處理

在參考了幾個分詞庫后，我選擇使用jieba庫進行數據處理。首先用pip install jieba，在安裝完成后直接import jieba導入進行使用。這里也參考了不少文章進行學習jieba。學習分詞的同時對json進行一定了解。在實現分詞后，將結果按照一定格式保存為json文件，以便於之后使用。

四、數據分析展示

由於對JavaScript不熟，在參考了多個文章后，還是選擇當個cv程序員，借鑒了網上的模板進行修改。在CSDN中找到了相關代碼進行操作。簡單的網頁制作還是會的，在新建了index.html后進行H5代碼的編寫，其中加入JavaScript的代碼。在套用模板后，將之前處理后的數據代入到對應的data部分，最終實現詞雲圖。

本來還想着生成自定義形狀的詞雲圖，通用模板問題不大，然而最后發現問題貌似處在使用的圖片模板上。根據說查找的CSDN博客的評論區所說，需要用到純黑的矢量圖，好吧瞬間無語，我說怎么老半天出不來(ˉ▽ˉ；)...。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業

姜睿喆---第一次個人編程作業

一、前期准備

1.建立GitHub倉庫

2.《在一起》評論頁面

二、數據收集

具體爬取代碼見GitHub：《在一起評論爬取》.py

爬取評論結果見評論.txt

三、數據處理

四、數據分析展示

參考資料

【VScode與GitHub】10分鍾學會用Git管理自己的代碼

在 vscode 中使用 Git ：拉取、提交、克隆

git新建分支及提交代碼到分支

jieba庫使用和好玩的詞雲

Python入門：jieba庫的使用

jieba中文分詞組件

json.dumps()函數解析

js讀取json文件（原生和jQuery）

基於echarts的詞雲

Echarts詞雲圖自定義圖案

免責聲明！