| 博客班級 | 2018級計算機和綜合實驗班 |
|---|---|
| 這個作業要求在哪里 | 作業要求的鏈接 |
| 這個作業的目標 | 運用Git,靈活運用數據采集分析方法,以及可視化等 |
| 作業源代碼 | 在這兒呢,這兒 |
| 學號 | 211806144 |
時間記錄
| 數據采集 | Ajax異步抓包 | 1.5H |
|---|---|---|
| 數據處理詞頻統計 | jieba分析數據 | 4.5H |
| 繪制詞雲圖 | 4H |
統計記錄
| 代碼行數 | 110行 |
|---|---|
| 需求分析時間 | 0.5H |
| 編碼時間 | 15H |
過程分析
首先用chrome瀏覽器打開騰訊視頻《在一起》評論頁面(不出所料,猜到了這個是下拉型,首先瞄准了Ajax異步爬取)


仔細觀察發現,我們發現url兩處不同的地方,就是上圖的這個v2?=和cursor,下拉發現每一次點擊更多評論的下拉框按鈕都會出現相應的v2?標簽,點開發現了規律,也就是你每翻到下一頁的評論url的末尾那一串數字會+1,可是cursor的規律還是沒有找到,於是決定去js里面查找,復制其中一個url打開,結果可以說是非常amazing,多試了幾次終於發現規律:cursor=?的值存在上面一個JS中

開爬!!!
這里吐槽一句,還是pycharm用的順手一點,功能賊全,安裝庫也很簡單輕松,spyder和jupyter就算了吧,哈哈...
代碼如下,相關知識有些忘了,參考了一下別的大佬的,這里截取我的一部分代碼

此時遇到了一些問題,每個頁面的第一條爬取不成功,會自動跳到第二條進行爬取,更改了一下j變量為變量j+1
成功爬取相關評論,爬取結束!!!
開始進行數據分析,詞條統計,並繪制詞雲圖
注:其實並不一定需要進行詞條統計,另一種思路,可以先將評論爬出來,將評論中多余的字符撇去,一樣可以進行詞雲圖繪制
關鍵代碼:

這樣子就把相關的詞頻統計出來了,但是之后我用了一種方法出現的詞雲圖會出現問題,就是出現的詞的數量並不多如下:

這樣子太少了,對比一下其他同學的感覺自己就是個弟弟
所以換了一個代碼,並簡略了一下,將統計詞頻與繪制詞雲圖函數功能放在了一起,我用了推特鳥的呈現效果,還是不錯的,最終呈現如下效果:

但是老師規定的是要用echarts,所以在參考了相關代碼后還是要用詞頻統計代碼進行操作,鍵值對形式將詞頻輸出,說是用導出json,用sublime最終在頁面中呈現效果

