計蒜之道 2019 決賽 摸魚記


day -?

  聽說決賽考機器學習,而且有7.5小時,就很慌。

  后來聽說之前那些人都是現場學的,就決定現場學習一個吧。

day 1

  先看題,大概是個點擊量預測,就是給你一大堆已經有的數據,包括時間、地點、興趣愛好等數據以及是否點擊了,又給了一堆數據要你預測點擊率。

  去問了一下zjt,他說了一堆東西,但是我都聽不懂。

  接着就自己上網查了一下,查到了一個東西叫做“朴素貝葉斯分類“,看起來挺簡單有效的,就去寫了。

  思路大概是這樣的:

  根據貝葉斯公式,有

\[P(點擊\mid (男,喜歡))=\frac{P((男,喜歡)\mid 點擊)\times P(點擊)}{P(男,喜歡)} \]

  然后我們假設特征之間獨立,就是

\[P((男,喜歡)\mid 點擊)=P(男,點擊)\times P(喜歡,點擊) \]

  分母的話,點擊的概率和不點擊的概率兩部分的分母是一樣的,直接忽略的就好了。

  這樣就可以求出概率了。

  還有一個東西叫做拉普拉斯平滑,感興趣的同學可以自己搜索一下。

  這個東西看起來挺簡單的,寫起來確實也挺簡單的。

  由於給的數據的格式我不會處理,我就只能自己寫,花了我兩三個小時。

  后面的算概率部分寫起來還是挺快的,不到半個小時就寫完了。

  自己測了一下測試集,logloss(這個東西我到最后面都沒有搞懂是怎么算的)大概是 0.37,然后交上去測了一下(計分的是另一個測試集)logloss 竟然高達 0.58。我也沒搞懂是怎么回事。

  最后就在胡亂調參,最優解到了 0.37。我也忘記我調了什么了。。。

  然后好像弄到了三等獎?

  不過還是打不過深度學習老哥。

代碼

  先鴿着,回學校再放。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM