數據說明:MovieLens數據集,它包含來自於943個用戶以及精選的1682部電影的100K個電影打分。每個用戶至少為20部電影打分,數據類型user id | item id | rating | timestamp.
地址:https://grouplens.org/datasets/movielens/
1、引入pandas,numpy包

2、讀取數據:首先,文件如果不在默認路徑下,需要更改路徑,使用下面兩行命令,另外要注意正反斜杠的應用。
os.getcwd()
os.chdir("新的路徑")

3、由於數據包含了打分數據,用戶數據,但在兩個文件里,因此需要合並。首先,使用header=['l列名1','列名2'.....]格式給兩個文件添加列名

然后數據合並

結果:

將文件轉換成字典類型,並按照列名讀取兩列



數據統計分析,data.describe()


