劉浩毅---第一次個人編程作業

本文轉載自查看原文 2021-02-19 00:36 311

博客班級	https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作業要求	https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作業目標	采集騰訊視頻里電視劇《在一起》的全部評論信息, 將采集到的評論信息做成詞雲圖
作業源代碼	https://github.com/1362776157/first-personal-work
學號	211811129

1.流程

步驟	簡易做法	時間
數據采集	使用正則提取	1.5h
詞頻統計	利用jieba進行分析	1h
繪制詞雲圖	使用worldcloud庫進行繪制	2h

2.具體步驟
（1）數據采集
根據《在一起》的所有評論頁如圖所示
按下F12刷新並點擊底部的加載更多可以發現

這時打開這些js發現評論就在content里面

多次點開底部的加載更多可以發現該request url的地址是有規律的，
這是第一頁

這是第二頁
所以尾部的那一串數字加一就是下一頁面的url，其次會發現url的cursor變化多端，將第一頁評論的url打印出來查詢第二頁的sursor數值發現下一頁的sursor數值為當前頁最后一名用戶的id
此為當前頁的最后一名用戶id

此為下一頁的url中的cursor值

發現這些規律之后便開始使用正則爬取

將爬取的數據保存至"評論.txt"文件中
（2）詞頻統計
第13行的代碼為統計出現頻率前100的詞語(該數值只為測試用)

完整代碼

將統計的詞頻保存至"comments.json"
（3）繪制詞雲圖
（這里使用開源庫里的echart.js）

效果圖如下

3.git操作
（1）克隆到本地

（2）切換分支

（3）往本地添加修改后的文件

（4）每次修改都得git add .之后git commit(由於是第一次使用所以是全部做完才上傳，導致commit信息不足)

（5）上傳git push

參考資料

標題	網址
Python基於jieba的中文詞雲	https://www.cnblogs.com/yuxuanlian/p/9781762.html
Python爬蟲實戰：爬取騰訊視頻的評論	https://my.oschina.net/u/4397001/blog/3421754
創建與合並分支	https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424

小結：熬了會夜把這作業肝完了，基本上除了爬取數據以外其他的全靠度娘，原本想着看下題目能做多少做多少因為我沒多少時間復習(3.13教資)，結果就停不下來了ε(┬┬﹏┬┬)3都已經凌晨2.30了！！博文就草草的寫了日后有時間再說，希望這是假期的最后一次作業o(╥﹏╥)o

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 劉帥第一次作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業