用戶行為數據分析(上) —— 了解數據集 & python數據預處理


UserBehavior是阿里巴巴提供的一個淘寶用戶行為數據集,用於隱式反饋推薦問題的研究。

數據來源☞ 傳送門

數據情況介紹:

UserBehavior.csv

本數據集包含了2017年11月25日至2017年12月3日之間,有行為的約一百萬隨機用戶的所有行為(行為包括點擊、購買、加購、喜歡)。

數據集的每一行表示一條用戶行為,由用戶ID、商品ID、商品類目ID、行為類型和時間戳組成,並以逗號分隔。

關於數據集中每一列的詳細描述如下:

列名稱 說明
用戶ID 整數類型,序列化后的用戶ID
商品ID 整數類型,序列化后的商品ID
商品類目ID 整數類型,序列化后的商品所屬類目ID
行為類型 字符串,枚舉類型,包括('pv', 'buy', 'cart', 'fav')
時間戳 行為發生的時間戳

注意到,用戶行為類型共有四種,它們分別是

行為類型 說明
pv 商品詳情頁pv,等價於點擊
buy 商品購買
cart 將商品加入購物車
fav 收藏商品

關於數據集大小的一些說明如下

維度 數量
用戶數量 987,994
商品數量 4,162,024
商品類目數量 9,439
所有行為數量 100,150,807

由於源數據量較大(3.41G),后續只對300萬條數據進行處理,這部分數據中包含29178名用戶的行為記錄。

由於源數據量較大(3.41G),本文只對300萬條數據進行處理

處理時間戳

異常日期處理

生成本地CSV文件


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM