葉翔---第一次個人編程作業


博客班級 2018 級計算機和綜合實驗班
作業要求 作業要求
作業目標 采集數據、分析數據、展示數據
作業源代碼 https://github.com/Yeyuxian/first-personal-work
學號 211804151
代碼總行數:92 行

耗時情況

過程 分析時間 利用時間 完成情況
爬取評論 30min 2h 部分完成
過濾評論 15min 30min 完成
評論拆分 20min 1h 完成
json轉換 30min 1h 完成
制作詞雲圖 20min 1h 完成
git上傳 20min 1h 完成

思路分析

  1. 首先爬取評論,找到評論所在服務器的地址。因為每次點擊加載更多評論都會有新的地址,所以首先得點擊幾次發現其中規律。

  2. 將爬取到的評論寫入txt文檔中,以便觀察以及進行接下來的操作.

  3. 過濾評論,打開剛剛寫的txt文檔,會發現其中有不少非中文字符以及表情,此時需要過濾掉這些字符和表情,才能進行拆分.

  4. 評論拆分,利用jieba將剛剛過濾好的評論進行拆分並排序,可以直觀的看到每個關鍵詞出現的次數

  5. 轉換成 json 文件,將拆分好的評論寫入字典后轉換成json文件

  6. 制作詞雲圖,利用 echarts 可以很方便地作出詞雲圖

遇到問題&解決方法

Q1. 首先遇到的問題就是用F12打開控制台后,無法很方便地找出評論的服務器地址,而且每次點擊加在更多后會發現有新的地址跳出,必須找到其中規律才能寫循環

M1. 可以在搜索欄輸入 comments 尋找

M1. 點擊加在更多后可以發現規律,除第一個外,cursor的值是爬取文本中"last"的值

M1. 最后的"&_="的值則是時間戳,獲取第一個時間戳后,之后的值則是第一個值+3之后,依次逐個+1

- 代碼如下:

Q2. 獲取到的代碼存在非中文以及表情,需要將其去除

M2. 讀取原txt文件,用if語句來過濾非中文及表情部分,並寫入新txt文件

代碼如下:

Q3. jieba庫的語法不會

M3. 上網尋找資料,網址:https://github.com/fxsjy/jieba

代碼如下:

Q4. git的語法不熟練

M4. 查詢資料,網址:https://www.cnblogs.com/MingT-L/p/14408571.html#關於數據展示詞雲圖

代碼如下:

鏈接遠程庫並克隆

創建分支並推送到遠程倉庫

推送

合並分支並再次推送

Q5. 只能實現單一集數的爬取,無法實現不同集數的爬取

M5. 未解決

成果展示

參考文獻

李明特---第一次個人編程作業

Commit message 和 Change log 編寫指南

GitHub - fxsjy/jieba: 結巴中文分詞

工具(2): 極簡MarkDown排版介紹(How to)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM