UserBehavior是阿里巴巴提供的一個淘寶用戶行為數據集,用於隱式反饋推薦問題的研究。
數據來源☞ 傳送門
數據情況介紹:
UserBehavior.csv
本數據集包含了2017年11月25日至2017年12月3日之間,有行為的約一百萬隨機用戶的所有行為(行為包括點擊、購買、加購、喜歡)。
數據集的每一行表示一條用戶行為,由用戶ID、商品ID、商品類目ID、行為類型和時間戳組成,並以逗號分隔。
關於數據集中每一列的詳細描述如下:
列名稱 | 說明 |
---|---|
用戶ID | 整數類型,序列化后的用戶ID |
商品ID | 整數類型,序列化后的商品ID |
商品類目ID | 整數類型,序列化后的商品所屬類目ID |
行為類型 | 字符串,枚舉類型,包括('pv', 'buy', 'cart', 'fav') |
時間戳 | 行為發生的時間戳 |
注意到,用戶行為類型共有四種,它們分別是
行為類型 | 說明 |
---|---|
pv | 商品詳情頁pv,等價於點擊 |
buy | 商品購買 |
cart | 將商品加入購物車 |
fav | 收藏商品 |
關於數據集大小的一些說明如下
維度 | 數量 |
---|---|
用戶數量 | 987,994 |
商品數量 | 4,162,024 |
商品類目數量 | 9,439 |
所有行為數量 | 100,150,807 |
由於源數據量較大(3.41G),后續只對300萬條數據進行處理,這部分數據中包含29178名用戶的行為記錄。
由於源數據量較大(3.41G),本文只對300萬條數據進行處理
處理時間戳
異常日期處理
生成本地CSV文件