[比賽] (愛奇藝)2022WSDM用戶留存預測挑戰賽 數據分析


簡要記錄一下比賽情況,下周繼續努力。

賽題描述:基於愛奇藝所提供的視頻數據、用戶畫像數據、用戶啟動日志、用戶觀影和互動行為日志等等數據集,對於測試集用戶預測其“7日留存分”。

比賽報告:(對數據的分析)

首先,我們對於提供的數據集進行了閱讀與分析。

在user_portrait中,共有596906 行數據,包含用戶的設備類型(device_type),設備存儲(device_rom),設備運行內存(device_ram),性別(sex),年齡(age),教育情況(education),職業(occupation_status),地域(territory_code)各方面信息。其中除rom與ram為具體數值外,其余都為類別數據。

查看各列數據分布可知,有一名用戶有重復的數據記錄,需要去除。

 

此外,觀察各個屬性的分布,為我們后續進行各個特征的嵌入做准備。

  

 

      

同樣的,我們對於video_related,user_playback,user_interaction等數據都進行了閱讀。所有的數據大致可以分為:如用戶性別,劇集類別等類別數據;如播放長度,登陸日期等數值數據;以及可被抽取出的登陸、交互等序列數據。對於類別數據與數值數據,可以用回歸問題的思路進行分析,對於序列數據,則可以使用GRU等結構提取順序信息。

1. User portrait data

Field name

Description

Analysis

user_id

 
唯一,不同數據集中一致,重復少,596905個用戶

device_type

iOS, Android或其他端,null

類別型特征 [1,2,3,4]

device_rom

rom of the device

數值數據

device_ram

ram of the device

數值數據

sex

性別

類別型特征[1,2],數量差距不大

age

划分年齡段

類別型特征 [1,2,3,4,5], 3與4居多。

education

教育水平

類別型特征 [0,1,2] ,0遠多於2,1。

occupation_status

職業狀態

類別型特征 [0,1],數量差距不大

territory_code

用戶常駐地域編號

六位數 +86XXXX,數據分布差距大

2.App launch logs

Field name

Description

Analysis

user_id

 

 

date

Desensitization, started from 0

數值數據,日期[100,222],集中於

launch_type

spontaneous or launched by other apps & deep-links   

類別數據[0,1] 0的個數遠大於1

 3.Video related data

Field name

Description

Analysis

item_id

id of the video

4250039個視頻

father_id

album id, if the video is an episode of an album collection

類別型特征 89365種,數據分布差距大

cast

a list of actors/actresses

類別型特征,大明星出演次數很多,8781條

duration

video length

類別型特征 [0,16]

tag_list

a list of tags

類別型特征 94967種,數據分布差距大

 

4.User playback data

Field name

Description

Analysis

user_id

 

544536個用戶(不是所有用戶)

item_id

 

4998182個視頻(不是所有視頻 冷啟動)

playtime

video playback time

數值特征,差距大,min 0.001,max 251348,mean 405

date

timestamp of the behavior

日期數據,分布於[100,222] 集中於140+

 

5.User interaction data

Field name

Description

Analysis

user_id

 

19946個用戶(不是所有用戶)

item_id

 

45536個視頻(不是所有視頻 冷啟動)

interact_type

interaction types such as posting comments, etc.

類別數據 [1,11] 最多的為1,10 (贊評?)

date

timestamp of the behavior

日期數據,分布於[172,222] 集中於210+

 

可以看出,User interaction data是一張非常小的表。連接到主表后,該列中將只有極少量有數值,其余均為NAN。對其使用需謹慎。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM