原始地址:https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.keEv1L&raceId=231531
賽題與數據
競賽題目
競賽數據
(注:每個賽季換數據階段,表名加前綴”p2_”,如p2_mars_tianchi_user_actions)
大賽開放抽樣的歌曲藝人數據,以及和這些藝人相關的6個月內(20150301-20150830)的用戶行為歷史記錄。
用戶行為表(mars_tianchi_user_actions)
列名 |
類型 |
說明 |
示例 |
user_id |
String |
用戶唯一標識 |
7063b3d0c075a4d276c5f06f4327cf4a |
song_id |
String |
歌曲唯一標識 |
effb071415be51f11e845884e67c0f8c |
gmt_create |
String |
用戶播放時間(unix時間戳表示)精確到小時 |
1426406400 |
action_type |
String |
行為類型:1,播放;2,下載,3,收藏 |
1 |
Ds |
String |
記錄收集日(分區) |
20150315 |
注:用戶對歌曲的任意行為為一行數據。
歌曲藝人(mars_tianchi_songs)
列名 |
類型 |
說明 |
示例 |
song_id |
String |
歌曲唯一標識 |
c81f89cf7edd24930641afa2e411b09c |
artist_id |
String |
歌曲所屬的藝人Id |
03c6699ea836decbc5c8fc2dbae7bd3b |
publish_time |
String |
歌曲發行時間,精確到天 |
20150325 |
song_init_plays |
String |
歌曲的初始播放數,表明該歌曲的初始熱度 |
0 |
Language |
String |
數字表示1,2,3… |
100 |
Gender |
String |
1,2,3 |
1 |
結果集:
選手需要預測藝人隨后2個月,即60天(20150901-20151030)的播放數據。
選手提交結果表(mars_tianchi_artist_plays_predict)
列名 |
類型 |
說明 |
示例 |
artist_id |
String |
歌曲所屬的藝人Id |
023406156015ef87f99521f3b343f71f |
Plays |
String |
藝人當天的播放數據 |
5000 |
Ds |
String |
日期 |
20150901 |
選手需要預測9月1日至10月30日60天內所有藝人的結果。
- 初賽,選手通過天池網站提交結果(臨近評測開始時間開放,左側會多一個“提交結果”導航), 文件命名方式:mars_tianchi_artist_plays_predict.csv; 字段之間以逗號分隔;編碼格式為UTF-8。結果格式如下圖:
- 復賽,選手直接在本隊伍所在項目空間產出結果mars_tianchi_artist_plays_predict即可,表結構(字段名,字段類型,字段順序)需與上述所列表結構保持一致。系統會自動根據表名去掃描和評測。
評估指標
總的感覺是思路比較開放,一共有50位歌手,需要做的就是預測這50位歌手的歌在60天內總的用戶點擊量,比較直觀的是歌曲數量越多,那么這位歌手的平均點擊量越大。
通過這種方法能得到每個歌手的平均點擊量,歌手的實際點擊量就在平均點擊量上下波動,暫時就想到這些~