劉浩毅---第一次個人編程作業


博客班級 https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作業要求 https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作業目標 采集騰訊視頻里電視劇《在一起》的全部評論信息, 將采集到的評論信息做成詞雲圖
作業源代碼 https://github.com/1362776157/first-personal-work
學號 211811129

1.流程

步驟 簡易做法 時間
數據采集 使用正則提取 1.5h
詞頻統計 利用jieba進行分析 1h
繪制詞雲圖 使用worldcloud庫進行繪制 2h

2.具體步驟
(1)數據采集
根據《在一起》的所有評論頁如圖所示
按下F12刷新並點擊底部的加載更多可以發現

這時打開這些js發現評論就在content里面

多次點開底部的加載更多可以發現該request url的地址是有規律的,
這是第一頁

這是第二頁
所以尾部的那一串數字加一就是下一頁面的url,其次會發現url的cursor變化多端,將第一頁評論的url打印出來查詢第二頁的sursor數值發現下一頁的sursor數值為當前頁最后一名用戶的id
此為當前頁的最后一名用戶id

此為下一頁的url中的cursor值

發現這些規律之后便開始使用正則爬取

將爬取的數據保存至"評論.txt"文件中
(2)詞頻統計
第13行的代碼為統計出現頻率前100的詞語(該數值只為測試用)

完整代碼

將統計的詞頻保存至"comments.json"
(3)繪制詞雲圖
(這里使用開源庫里的echart.js)

效果圖如下

3.git操作
(1)克隆到本地

(2)切換分支

(3)往本地添加修改后的文件

(4)每次修改都得git add .之后git commit(由於是第一次使用所以是全部做完才上傳,導致commit信息不足)

(5)上傳git push

參考資料

標題 網址
Python基於jieba的中文詞雲 https://www.cnblogs.com/yuxuanlian/p/9781762.html
Python爬蟲實戰:爬取騰訊視頻的評論 https://my.oschina.net/u/4397001/blog/3421754
創建與合並分支 https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424

小結:熬了會夜把這作業肝完了,基本上除了爬取數據以外其他的全靠度娘,原本想着看下題目能做多少做多少因為我沒多少時間復習(3.13教資),結果就停不下來了ε(┬┬﹏┬┬)3都已經凌晨2.30了!!博文就草草的寫了日后有時間再說,希望這是假期的最后一次作業o(╥﹏╥)o


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM