他爬取了B站所有番劇信息,發現了這些……


本文來自「樓+ 之數據分析與挖掘實戰 」第 4 期學員 —— Yueyec 的作業。他爬取了B站上所有的番劇信息,發現了很多有趣的數據~

關鍵信息:最高播放量 / 最強up主 / 用戶追番數據 / 雲追番?

起源

「數據分析」從「數據挖掘」開始,Yueyec 同學選擇了 BeautifulSoup 來爬取B站的番劇信息。部分代碼如下:

完整的代碼可在文末查看。

數據清洗

數據分析前,我們要對數據進行清洗。

爬取數據后,發現有些視頻的播放次數為-1,可能是由於版權、封號等問題下架的視頻,大約有1000多個。

data[-1 == data['觀看次數']]

清洗掉這些臟數據,清洗完成后,就可以分析拿到手的數據了。

data.drop(data[-1 == data['觀看次數']].index, inplace=True)

最勤勞的up主

開始數據分析環節,我們先來看看誰是最勤勞的up主,他貢獻了全站四分之一的番劇,猜猜他是誰?

統計發現:大致四分之一是 嗶哩嗶哩官方 發布的,排第二的則為「小清水亜美」,搬運了3218 集的番劇,第三位為 東京電視台。

完整的代碼可在文末查看。

收藏量和播放量最高的番劇

收藏量和播放量最高的番劇都是哪部?結果可能會大大出於意料……

data.sort_values("收藏", ascending=False).reset_index(drop=True)

收藏數量排序

統計發現,收藏的番劇中,很多都是劇場版,可能是相對於TV版,劇場版制作更精良的緣故。在具體排序中,排第五的居然是本月10號上傳的番劇,這點很意外。

播放量最高的番劇又是哪個呢 :

data.sort_values("觀看次數", ascending=False).reset_index(drop=True)

分析結果:

  1. 排名最高的「工作細胞」的播放量幾乎達到了4000千萬,遠超第二部。

(「工作細胞」中,在國內外都引起風潮的“血小板”)
2. 前五名中,「Overlord」出現了三次,果然是公認的B站霸權的番劇。

  1. 排名靠前的幾部,都是番劇的第一集。

XX雲番劇?

根據用戶喜好,智能推薦音樂的應用我們都見過很多,但智能推薦番劇的好像挺少,能不能基於用戶數據,做一個推薦番劇的系統呢?

Yueyec 同學進行了實驗:

“另外爬取了用戶的追番信息來做關聯分析,可以查看到哪些番劇是關聯比較大的。”

“可以看到,其中很多是同一個番劇,只是季數不同。但不少番劇之間也與很高的置信度,我覺得可以用此得到一個簡單的推薦算法。”

中肯的總結和建議

  1. 通過這次6周的學習,補充了不少知識,加深了 Pandas 的使用,也了解了時間序列、自然語言等的處理方法。

  2. 雖然時間不長,但是對整個過程都有所了解,為將來學習機器學習建立了基石。

  3. 部分挑戰太簡單,建議把挑戰換成從頭到尾自己實現模型,更能加深印象和具有挑戰難度。

  4. 第五周的內容展現了不同類型的分析模板,加強了見識也提供了很多擴展的內容。因為並沒有完全看完,所以接下來會花部分時間來學習這部分。

除了 Yueyec 同學,還有很多優秀的同學的作品:

這些作品的代碼,你可以在瀏覽器中輸入這個鏈接,或點擊閱讀原文,再點擊「查看更多優秀作品」來查閱。

https://github.com/shiyanlou/louplus-dm/tree/master/Assignments

如果你也想像這位同學一樣,系統地學習數據挖掘和數據分析技能,可以了解一下《數據分析與挖掘實戰》這門課程,目前已經開到第六期,一線大牛授課,帶你在6周內成長為有真實工作能力的數據科學工程師。

現在掃碼添加小姐姐微信,還可領取:100元優惠券 + 數據分析與挖掘學習腦圖~

我在實驗樓等你!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM