視頻地址:https://pan.baidu.com/s/1b25yNG
機器學習比賽入門條件
1.過的去的code能力:Leetcode平台
leetcode平台可以幫助我們提高基本的算法實現能力,比如寫一個冒泡排序方法,寫出來的代碼簡潔高效
2.參與比賽:Data Fountain,Kaggle,biendata,Data castle
經常發布一些比賽,可以挑一些感興趣的參加
3.關注公眾號:閱讀代碼(高手的分享)或者論文; 推薦兩個@Datacatsle@愛可可
4.朋友和圈子(大腿),各種群
機器學習比賽流程
這里推薦的網址其實是一個博主的博客:http://blog.csdn.net/sinat_22594309/article/details/68951145
在這個博主的博客中談到了很多有關於機器學習的經驗,加關注,以后可以讀
1.特征工程這個地方就是數據分析能力,有些人其實就是可以能夠很好的將數據變化得到的新的特征,比如說將數據從低維空間映射到核空間或者高維空間就可以將原本無法分類的數據分開,這就是很好的新特征,我們不能把所有的數據多懟到模型上,比如神經網絡還是隨機森林,因為這些數據有可能量很大,或者很復雜,模型很難直接吃下這些數據得到很好的結果,所以需要我們先進行特征工程這一步,構造出合適的特征喂給我們的模型,從而得到更好的結果,這個就是很考驗想法的一個環節,每拿到一個題目,你能根據場景分析到什么樣的idea可以很好的構造特征解決這個問題。有的人光是考規則懟就能拿到很好的數據競賽成績 比如天池比賽的規則大神 桑榆 天音。總之,特征工程是核心競爭力,有經驗的人講數據進行log對數變化啊這種
2.模型選用:大數據比賽中常用的模型就是各種nn模型(cnn,rnn),隨機森林,boost,等等
3.模型融合,就是利用迭代,boosting的方式訓練模型,這種就是真的在比賽中才會用到的技巧,一點都不學術
機器學習比賽進階
個人學習經歷
個人比賽分享
在分析數據的時候,你覺得自己是有什么想法能夠讓你在這個比賽中脫穎而出的,比如在這個比賽中,經緯度數據的處理就很關鍵,幫助博主bird在比賽中去的關鍵性的勝利。首先經緯度是一個二維的數據,他們合在一起表示一個位置,分開來是沒有太大意義的,因此只有將經度和緯度耦合在一起成為一個特征,才能夠提供有意義的信息。直接將兩位數據扔給模型,模型是很難去吃透這個數據的
測試集與訓練集同分布的意思是:在官方沒有提供測試集的情況下,可以自己通過訓練集構造線下測試集,兩者同分布。同分布很重要,因為我們的數據都是統計數據,而且一般就算是大賽提供的 測試集也是跟訓練集同分布的。
關於DL embedding搜索到的一些資料:、
(感覺嵌入層可以一定程度的降低特征工程的重要性?)
http://imgtec.eetrend.com/blog/10255(含有代碼,解釋,非常好的博客)
https://zhuanlan.zhihu.com/p/24252690
深度學習系列4: 為什么你需要使用嵌入層
https://juejin.im/post/599183c6f265da3e2e5717d2
通過可視化,發現相似的地點自動聚類在一起,說明博主利用geohash編碼將經緯度划分為小方塊的做法是正確的,將數據可視化是一種非常重要且好用的手段,讓我們知道模型往哪個方向走
最后一些話:
還有在這個比賽中,官方提供的最后的評價指標是MAPE(平均絕對 百分誤差)但是這個作為評價直指標是不合理的其實,因為它只是一個相對值,
所以最后博主重寫了MSE作為評價指標
准確率,召回率,F1 值、ROC,AUC、mse,mape評價指標:http://blog.csdn.net/a819825294/article/details/51699211