簡要記錄一下比賽情況,下周繼續努力。
賽題描述:基於愛奇藝所提供的視頻數據、用戶畫像數據、用戶啟動日志、用戶觀影和互動行為日志等等數據集,對於測試集用戶預測其“7日留存分”。
比賽報告:(對數據的分析)
首先,我們對於提供的數據集進行了閱讀與分析。
在user_portrait中,共有596906 行數據,包含用戶的設備類型(device_type),設備存儲(device_rom),設備運行內存(device_ram),性別(sex),年齡(age),教育情況(education),職業(occupation_status),地域(territory_code)各方面信息。其中除rom與ram為具體數值外,其余都為類別數據。
查看各列數據分布可知,有一名用戶有重復的數據記錄,需要去除。
此外,觀察各個屬性的分布,為我們后續進行各個特征的嵌入做准備。
同樣的,我們對於video_related,user_playback,user_interaction等數據都進行了閱讀。所有的數據大致可以分為:如用戶性別,劇集類別等類別數據;如播放長度,登陸日期等數值數據;以及可被抽取出的登陸、交互等序列數據。對於類別數據與數值數據,可以用回歸問題的思路進行分析,對於序列數據,則可以使用GRU等結構提取順序信息。
1. User portrait data
Field name |
Description |
Analysis |
user_id |
唯一,不同數據集中一致,重復少,596905個用戶 |
|
device_type |
iOS, Android或其他端,null |
類別型特征 [1,2,3,4] |
device_rom |
rom of the device |
數值數據 |
device_ram |
ram of the device |
數值數據 |
sex |
性別 |
類別型特征[1,2],數量差距不大 |
age |
划分年齡段 |
類別型特征 [1,2,3,4,5], 3與4居多。 |
education |
教育水平 |
類別型特征 [0,1,2] ,0遠多於2,1。 |
occupation_status |
職業狀態 |
類別型特征 [0,1],數量差距不大 |
territory_code |
用戶常駐地域編號 |
六位數 +86XXXX,數據分布差距大 |
2.App launch logs
Field name |
Description |
Analysis |
user_id |
|
|
date |
Desensitization, started from 0 |
數值數據,日期[100,222],集中於 |
launch_type |
spontaneous or launched by other apps & deep-links |
類別數據[0,1] 0的個數遠大於1 |
3.Video related data
Field name |
Description |
Analysis |
item_id |
id of the video |
4250039個視頻 |
father_id |
album id, if the video is an episode of an album collection |
類別型特征 89365種,數據分布差距大 |
cast |
a list of actors/actresses |
類別型特征,大明星出演次數很多,8781條 |
duration |
video length |
類別型特征 [0,16] |
tag_list |
a list of tags |
類別型特征 94967種,數據分布差距大 |
4.User playback data
Field name |
Description |
Analysis |
user_id |
|
544536個用戶(不是所有用戶) |
item_id |
|
4998182個視頻(不是所有視頻 冷啟動) |
playtime |
video playback time |
數值特征,差距大,min 0.001,max 251348,mean 405 |
date |
timestamp of the behavior |
日期數據,分布於[100,222] 集中於140+ |
5.User interaction data
Field name |
Description |
Analysis |
user_id |
|
19946個用戶(不是所有用戶) |
item_id |
|
45536個視頻(不是所有視頻 冷啟動) |
interact_type |
interaction types such as posting comments, etc. |
類別數據 [1,11] 最多的為1,10 (贊評?) |
date |
timestamp of the behavior |
日期數據,分布於[172,222] 集中於210+ |
可以看出,User interaction data是一張非常小的表。連接到主表后,該列中將只有極少量有數值,其余均為NAN。對其使用需謹慎。