Kaggle大數據競賽平台入門
大數據競賽平台,國內主要是天池大數據競賽和DataCastle,國外主要就是Kaggle.Kaggle是一個數據挖掘的競賽平台,網站為:https://www.kaggle.com/.很多的機構,企業將問題,描述,期望發布在Kaggle上,以競賽的方式向廣大的數據科學家征集解決方案,體現了集體智慧這一思想.每個人在網站上注冊后,都可以下載感興趣項目的數據集,分析數據,構造模型,解決問題提交結果.按照結果的好壞會有一個排名,成績優異者還可能獲得獎金/面試機會等.
圖1展示了進入Kaggle官網后顯示的正在進行的比賽,這些比賽的類型是不同的,可以進行篩選顯示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class這7個選項.顯示為Featured的比賽(左側有粉紅色條條)一般獎金比較豐厚,競爭也比較大;顯示為Research的比賽(左側有黃色條條),獎金少一些;顯示為Recruitment的比賽,雖然沒有獎金,但是卻可以獲得發布項目公司的實習/面試機會,這也給企業招聘人才提供了另外一種方式.顯示為Playground的為練習賽,主要用於初學者練手,對於初學者,建議從這里開始.Getting Started里面手把手教你一步一步地進行數據挖掘,是很好的入門教程.除了這些公開比賽,Kaggle還會想活躍的參與者提供私下的比賽,以及為大學團體提供Kaggle-In-Class項目.Kaggle的博客No Free Hunch也是一個好的學習去處,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner's Interviews這些欄目.
圖1 Kaggle首頁
比賽流程:
1.進去感興趣的競賽項目,下載數據集(csv格式),數據集中一般包括訓練數據集和測試數據集,查看數據描述和任務描述,明確需求;
2.用你擅長的任何語言或者算法來構建模型,用訓練集來訓練,然后用訓練好的模型推測測試集的labels,生成一個測試集labels作為最終的提交文件;
3.系統會從所提交文件中選取25%的數據進行初評,根據評測結果得到准確率和排名.在比賽結束時,采用剩下的75%的數據進行終評,作為最后的准確率.
Kernels:
Kernels提供了數據分析的環境,數據集,代碼和輸出樣式,點擊進去是下面這樣的: 這類似於Jupyper Notebook.在這里面可以直接編譯python,可以在code和markdown之間自由切換,可以很方便地復現和分享.還有一點就是你可能不需要將數據集下載下來,也不需要配置本地的python以及各種庫(比如pandas,numpy等),直接在網頁上進行數據挖掘.Kernel上還可以分享代碼(初學者好的學習去處),在Forum(論壇)回答問題還可以積分.
參考文獻:
[1] Kaggle機器學習競賽冠軍及優勝者的源代碼匯總: http://suanfazu.com/t/kaggle/230
[2] Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur