數據說明:MovieLens數據集,它包含來自於943個用戶以及精選的1682部電影的100K個電影打分。每個用戶至少為20部電影打分,數據類型user id | item id | rating | timestamp.
地址:https://grouplens.org/datasets/movielens/
1、引入pandas,numpy包
2、讀取數據:首先,文件如果不在默認路徑下,需要更改路徑,使用下面兩行命令,另外要注意正反斜杠的應用。
os.getcwd()
os.chdir("新的路徑")
3、由於數據包含了打分數據,用戶數據,但在兩個文件里,因此需要合並。首先,使用header=['l列名1','列名2'.....]格式給兩個文件添加列名
然后數據合並
結果:
將文件轉換成字典類型,並按照列名讀取兩列
數據統計分析,data.describe()