博客班級 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
---|---|
作業要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作業目標 | 采集騰訊視頻里電視劇《在一起》的全部評論信息, 將采集到的評論信息做成詞雲圖 |
作業源代碼 | https://github.com/1362776157/first-personal-work |
學號 | 211811129 |
1.流程
步驟 | 簡易做法 | 時間 |
---|---|---|
數據采集 | 使用正則提取 | 1.5h |
詞頻統計 | 利用jieba進行分析 | 1h |
繪制詞雲圖 | 使用worldcloud庫進行繪制 | 2h |
2.具體步驟
(1)數據采集
根據《在一起》的所有評論頁如圖所示
按下F12刷新並點擊底部的加載更多可以發現
這時打開這些js發現評論就在content里面
多次點開底部的加載更多可以發現該request url的地址是有規律的,
這是第一頁
這是第二頁
所以尾部的那一串數字加一就是下一頁面的url,其次會發現url的cursor變化多端,將第一頁評論的url打印出來查詢第二頁的sursor數值發現下一頁的sursor數值為當前頁最后一名用戶的id
此為當前頁的最后一名用戶id
此為下一頁的url中的cursor值
發現這些規律之后便開始使用正則爬取
將爬取的數據保存至"評論.txt"文件中
(2)詞頻統計
第13行的代碼為統計出現頻率前100的詞語(該數值只為測試用)
完整代碼
將統計的詞頻保存至"comments.json"
(3)繪制詞雲圖
(這里使用開源庫里的echart.js)
效果圖如下
3.git操作
(1)克隆到本地
(2)切換分支
(3)往本地添加修改后的文件
(4)每次修改都得git add .之后git commit(由於是第一次使用所以是全部做完才上傳,導致commit信息不足)
(5)上傳git push
參考資料
標題 | 網址 |
---|---|
Python基於jieba的中文詞雲 | https://www.cnblogs.com/yuxuanlian/p/9781762.html |
Python爬蟲實戰:爬取騰訊視頻的評論 | https://my.oschina.net/u/4397001/blog/3421754 |
創建與合並分支 | https://www.liaoxuefeng.com/wiki/896043488029600/900003767775424 |
小結:熬了會夜把這作業肝完了,基本上除了爬取數據以外其他的全靠度娘,原本想着看下題目能做多少做多少因為我沒多少時間復習(3.13教資),結果就停不下來了ε(┬┬﹏┬┬)3都已經凌晨2.30了!!博文就草草的寫了日后有時間再說,希望這是假期的最后一次作業o(╥﹏╥)o