張天池---第一次個人編程作業


博客班級 2018級計算機和綜合實驗班
這個作業要求在哪里 作業要求的鏈接
這個作業的目標 運用Git,靈活運用數據采集分析方法,以及可視化等
作業源代碼 在這兒呢,這兒
學號 211806144

時間記錄

數據采集 Ajax異步抓包 1.5H
數據處理詞頻統計 jieba分析數據 4.5H
繪制詞雲圖 安裝wordcloud,並用wordcloud進行詞雲圖的繪制運用echarts進行操作,將詞頻統計匯集,最終頁面形成詞雲圖 4H

統計記錄

代碼行數 110行
需求分析時間 0.5H
編碼時間 15H

過程分析

首先用chrome瀏覽器打開騰訊視頻《在一起》評論頁面(不出所料,猜到了這個是下拉型,首先瞄准了Ajax異步爬取


仔細觀察發現,我們發現url兩處不同的地方,就是上圖的這個v2?=和cursor,下拉發現每一次點擊更多評論的下拉框按鈕都會出現相應的v2?標簽,點開發現了規律,也就是你每翻到下一頁的評論url的末尾那一串數字會+1,可是cursor的規律還是沒有找到,於是決定去js里面查找,復制其中一個url打開,結果可以說是非常amazing,多試了幾次終於發現規律:cursor=?的值存在上面一個JS中

開爬!!!

這里吐槽一句,還是pycharm用的順手一點,功能賊全,安裝庫也很簡單輕松,spyder和jupyter就算了吧,哈哈...

代碼如下,相關知識有些忘了,參考了一下別的大佬的,這里截取我的一部分代碼

此時遇到了一些問題,每個頁面的第一條爬取不成功,會自動跳到第二條進行爬取,更改了一下j變量為變量j+1

成功爬取相關評論,爬取結束!!!

開始進行數據分析,詞條統計,並繪制詞雲圖

注:其實並不一定需要進行詞條統計,另一種思路,可以先將評論爬出來,將評論中多余的字符撇去,一樣可以進行詞雲圖繪制

關鍵代碼:

這樣子就把相關的詞頻統計出來了,但是之后我用了一種方法出現的詞雲圖會出現問題,就是出現的詞的數量並不多如下:

這樣子太少了,對比一下其他同學的感覺自己就是個弟弟

所以換了一個代碼,並簡略了一下,將統計詞頻與繪制詞雲圖函數功能放在了一起,我用了推特鳥的呈現效果,還是不錯的,最終呈現如下效果:

但是老師規定的是要用echarts,所以在參考了相關代碼后還是要用詞頻統計代碼進行操作,鍵值對形式將詞頻輸出,說是用導出json,用sublime最終在頁面中呈現效果

之后的git操作因為在上一次的作業中熟悉過了,也就很輕松給弄出來了。

我的天,終於結束了,眼睛盯的電腦疼(」><)」

作業小結反思:

果然,向楊雄老師道歉,學的爬蟲知識有一部分換給您了,一開始是想用selenium進行爬取的,愣是不會...,另外對於git方面的知識雖說上一節熟悉了,但是這一次拓展加基礎方面的綜合還是有些吃力,路遙知馬力,我還是要繼續努力的。

參考資料

1.Python爬蟲實戰:爬取騰訊視頻的評論

2.Python文本挖掘: 詞頻統計,詞雲圖

3.使用Git上傳文件至Github

4.GitHub分支創建及合並


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM