day -?
聽說決賽考機器學習,而且有7.5小時,就很慌。
后來聽說之前那些人都是現場學的,就決定現場學習一個吧。
day 1
先看題,大概是個點擊量預測,就是給你一大堆已經有的數據,包括時間、地點、興趣愛好等數據以及是否點擊了,又給了一堆數據要你預測點擊率。
去問了一下zjt,他說了一堆東西,但是我都聽不懂。
接着就自己上網查了一下,查到了一個東西叫做“朴素貝葉斯分類“,看起來挺簡單有效的,就去寫了。
思路大概是這樣的:
根據貝葉斯公式,有
\[P(點擊\mid (男,喜歡))=\frac{P((男,喜歡)\mid 點擊)\times P(點擊)}{P(男,喜歡)} \]
然后我們假設特征之間獨立,就是
\[P((男,喜歡)\mid 點擊)=P(男,點擊)\times P(喜歡,點擊) \]
分母的話,點擊的概率和不點擊的概率兩部分的分母是一樣的,直接忽略的就好了。
這樣就可以求出概率了。
還有一個東西叫做拉普拉斯平滑,感興趣的同學可以自己搜索一下。
這個東西看起來挺簡單的,寫起來確實也挺簡單的。
由於給的數據的格式我不會處理,我就只能自己寫,花了我兩三個小時。
后面的算概率部分寫起來還是挺快的,不到半個小時就寫完了。
自己測了一下測試集,logloss(這個東西我到最后面都沒有搞懂是怎么算的)大概是 0.37,然后交上去測了一下(計分的是另一個測試集)logloss 竟然高達 0.58。我也沒搞懂是怎么回事。
最后就在胡亂調參,最優解到了 0.37。我也忘記我調了什么了。。。
然后好像弄到了三等獎?
不過還是打不過深度學習老哥。
代碼
先鴿着,回學校再放。