本文轉載自查看原文 2019-07-17 13:39 701 程序員/ 數據分析/ 代碼/ B站

本文來自「樓+ 之數據分析與挖掘實戰」第 4 期學員 —— Yueyec 的作業。他爬取了B站上所有的番劇信息，發現了很多有趣的數據～

關鍵信息：最高播放量 / 最強up主 / 用戶追番數據 / 雲追番？

起源

「數據分析」從「數據挖掘」開始，Yueyec 同學選擇了 BeautifulSoup 來爬取B站的番劇信息。部分代碼如下：

完整的代碼可在文末查看。

數據清洗

數據分析前，我們要對數據進行清洗。

爬取數據后，發現有些視頻的播放次數為-1，可能是由於版權、封號等問題下架的視頻，大約有1000多個。

data[-1 == data['觀看次數']]

清洗掉這些臟數據，清洗完成后，就可以分析拿到手的數據了。

data.drop(data[-1 == data['觀看次數']].index, inplace=True)

最勤勞的up主

開始數據分析環節，我們先來看看誰是最勤勞的up主，他貢獻了全站四分之一的番劇，猜猜他是誰？

統計發現：大致四分之一是嗶哩嗶哩官方發布的，排第二的則為「小清水亜美」，搬運了3218 集的番劇，第三位為東京電視台。

完整的代碼可在文末查看。

收藏量和播放量最高的番劇

收藏量和播放量最高的番劇都是哪部？結果可能會大大出於意料……

data.sort_values("收藏", ascending=False).reset_index(drop=True)

收藏數量排序

統計發現，收藏的番劇中，很多都是劇場版，可能是相對於TV版，劇場版制作更精良的緣故。在具體排序中，排第五的居然是本月10號上傳的番劇，這點很意外。

播放量最高的番劇又是哪個呢：

data.sort_values("觀看次數", ascending=False).reset_index(drop=True)

分析結果：

（「工作細胞」中，在國內外都引起風潮的“血小板”）
2. 前五名中，「Overlord」出現了三次，果然是公認的B站霸權的番劇。

XX雲番劇？

根據用戶喜好，智能推薦音樂的應用我們都見過很多，但智能推薦番劇的好像挺少，能不能基於用戶數據，做一個推薦番劇的系統呢？

Yueyec 同學進行了實驗：

“另外爬取了用戶的追番信息來做關聯分析，可以查看到哪些番劇是關聯比較大的。”

“可以看到，其中很多是同一個番劇，只是季數不同。但不少番劇之間也與很高的置信度，我覺得可以用此得到一個簡單的推薦算法。”

中肯的總結和建議

除了 Yueyec 同學，還有很多優秀的同學的作品：

這些作品的代碼，你可以在瀏覽器中輸入這個鏈接，或點擊閱讀原文，再點擊「查看更多優秀作品」來查閱。

如果你也想像這位同學一樣，系統地學習數據挖掘和數據分析技能，可以了解一下《數據分析與挖掘實戰》這門課程，目前已經開到第六期，一線大牛授課，帶你在6周內成長為有真實工作能力的數據科學工程師。

現在掃碼添加小姐姐微信，還可領取：100元優惠券 + 數據分析與挖掘學習腦圖～

我在實驗樓等你!

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。