相關內容簡體繁體

張天池---第一次個人編程作業

本文轉載自查看原文 2021-02-20 00:37 246

博客班級	2018級計算機和綜合實驗班
這個作業要求在哪里	作業要求的鏈接
這個作業的目標	運用Git，靈活運用數據采集分析方法，以及可視化等
作業源代碼	在這兒呢，這兒
學號	211806144

時間記錄

數據采集	Ajax異步抓包	1.5H
數據處理詞頻統計	jieba分析數據	4.5H
繪制詞雲圖	~~安裝wordcloud，並用wordcloud進行詞雲圖的繪制~~運用echarts進行操作，將詞頻統計匯集，最終頁面形成詞雲圖	4H

統計記錄

代碼行數	110行
需求分析時間	0.5H
編碼時間	15H

過程分析

首先用chrome瀏覽器打開騰訊視頻《在一起》評論頁面（不出所料，猜到了這個是下拉型，首先瞄准了Ajax異步爬取）

仔細觀察發現，我們發現url兩處不同的地方，就是上圖的這個v2?=和cursor，下拉發現每一次點擊更多評論的下拉框按鈕都會出現相應的v2?標簽，點開發現了規律，也就是你每翻到下一頁的評論url的末尾那一串數字會+1，可是cursor的規律還是沒有找到，於是決定去js里面查找，復制其中一個url打開，結果可以說是非常amazing，多試了幾次終於發現規律：cursor=？的值存在上面一個JS中

開爬！！！

這里吐槽一句，還是pycharm用的順手一點，功能賊全，安裝庫也很簡單輕松，spyder和jupyter就算了吧，哈哈...

代碼如下，相關知識有些忘了，參考了一下別的大佬的,這里截取我的一部分代碼

此時遇到了一些問題，每個頁面的第一條爬取不成功，會自動跳到第二條進行爬取，更改了一下j變量為變量j+1

成功爬取相關評論，爬取結束！！！

開始進行數據分析，詞條統計，並繪制詞雲圖

注：其實並不一定需要進行詞條統計，另一種思路，可以先將評論爬出來，將評論中多余的字符撇去，一樣可以進行詞雲圖繪制

關鍵代碼：

這樣子就把相關的詞頻統計出來了，但是之后我用了一種方法出現的詞雲圖會出現問題，就是出現的詞的數量並不多如下：

這樣子太少了，對比一下其他同學的感覺自己就是個弟弟

所以換了一個代碼，並簡略了一下，將統計詞頻與繪制詞雲圖函數功能放在了一起，我用了推特鳥的呈現效果，還是不錯的，最終呈現如下效果：

但是老師規定的是要用echarts,所以在參考了相關代碼后還是要用詞頻統計代碼進行操作，鍵值對形式將詞頻輸出，說是用導出json，用sublime最終在頁面中呈現效果

之后的git操作因為在上一次的作業中熟悉過了，也就很輕松給弄出來了。

我的天，終於結束了，眼睛盯的電腦疼(」＞＜)」

作業小結反思：

果然，向楊雄老師道歉，學的爬蟲知識有一部分換給您了，一開始是想用selenium進行爬取的，愣是不會...，另外對於git方面的知識雖說上一節熟悉了，但是這一次拓展加基礎方面的綜合還是有些吃力，路遙知馬力，我還是要繼續努力的。

參考資料

1.Python爬蟲實戰：爬取騰訊視頻的評論

2.Python文本挖掘: 詞頻統計，詞雲圖

3.使用Git上傳文件至Github

4.GitHub分支創建及合並

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業第一次個人編程作業

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM