| 博客班級 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
|---|---|
| 作業要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
| 作業目標 | 采集騰訊視頻里電視劇《在一起》的全部評論信息, 將采集到的評論信息做成詞雲圖 |
| 作業源代碼 | https://github.com/1362776157/first-personal-work |
| 學號 | 211811129 |
1.流程
| 步驟 | 簡易做法 | 時間 |
|---|---|---|
| 數據采集 | 使用正則提取 | 1.5h |
| 詞頻統計 | 利用jieba進行分析 | 1h |
| 繪制詞雲圖 | 使用worldcloud庫進行繪制 | 2h |
2.具體步驟
(1)數據采集
根據《在一起》的所有評論頁如圖所示
按下F12刷新並點擊底部的加載更多可以發現

這時打開這些js發現評論就在content里面

多次點開底部的加載更多可以發現該request url的地址是有規律的,
這是第一頁
這是第二頁
所以尾部的那一串數字加一就是下一頁面的url,其次會發現url的cursor變化多端,將第一頁評論的url打印出來查詢第二頁的sursor數值發現下一頁的sursor數值為當前頁最后一名用戶的id
此為當前頁的最后一名用戶id

此為下一頁的url中的cursor值

發現這些規律之后便開始使用正則爬取

將爬取的數據保存至"評論.txt"文件中
(2)詞頻統計
第13行的代碼為統計出現頻率前100的詞語(該數值只為測試用)

完整代碼

將統計的詞頻保存至"comments.json"
(3)繪制詞雲圖
(這里使用開源庫里的echart.js)

效果圖如下

3.git操作
(1)克隆到本地

(2)切換分支

(3)往本地添加修改后的文件

(4)每次修改都得git add .之后git commit(由於是第一次使用所以是全部做完才上傳,導致commit信息不足)

(5)上傳git push

參考資料
| 標題 | 網址 |
|---|---|
| Python基於jieba的中文詞雲 | https://www.cnblogs.com/yuxuanlian/p/9781762.html |
| Python爬蟲實戰:爬取騰訊視頻的評論 | https://my.oschina.net/u/4397001/blog/3421754 |
| 創建與合並分支 | https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424 |
小結:熬了會夜把這作業肝完了,基本上除了爬取數據以外其他的全靠度娘,原本想着看下題目能做多少做多少因為我沒多少時間復習(3.13教資),結果就停不下來了ε(┬┬﹏┬┬)3都已經凌晨2.30了!!博文就草草的寫了日后有時間再說,希望這是假期的最后一次作業o(╥﹏╥)o
