下載數據包
鏈接:https://grouplens.org/datasets/movielens/1m/
解壓:
四個文件分別是數據介紹,電影數據表,電影評分表,用戶表
進行電影數據分析
進入ipython,新建一個項目
從用戶表讀取用戶信息

警告原因,C語言實現的引擎不支持某些特性,最終用Python引擎實現
打印列表長度,共有6040條記錄

查看前五條記錄
其中age對應的年齡段在readme表中有對應說明
同樣方法,導入電影數據表,電影評分表

查看導入數據數量,評分表為1000209條,電影數據表有3883條

查看評分表前五條數據

查看電影數據前五條

導入完成之后,我們可以發現這三張表類似於數據庫中的表
要進行數據分析,我們就要將多張表進行合並才有助於分析
使用merge函數合並

先將users與ratings兩張表合並再跟movied合並
查看合並后的表長度和前十條數據

合並后的每一條記錄反映了每個人的年齡,職業,性別,郵編,電影ID,評分,時間戳,電影信息,電影分類等一系列信息
比如我們查看用戶id為1的所有信息

查看每一部電影不同性別的平均評分
運用數據透視

表中結構為每一部電影男性跟女性的評分平均值
查看電影分歧最大的那部電影
加一列評分差值

按照diff排序

查看評分最多的電影
查看最熱門電影

查看最高分電影
先算出每部電影平均得分

對電影平均得分排序

當然,從嚴格意義上僅僅通過單一條件電影評分高低我們還不能判斷這部電影是否是一部真正的好電影,因為評分均分跟觀影人數也有關系
先按照熱度找出熱度高的電影,有207部電影符合條件,然后我們可以在評分數據透視中篩選出符合條件的數據



