滴滴算法大賽算法解決過程 - 機器學習

本文轉載自查看原文 2016-05-31 16:43 2878

按照前面文章的方法進行數據預測，完全不使用POI，天氣，交通情況的數據，可以達到0.43的成績。
不過如果想要獲得更好的成績，簡單的預測方法顯然無法滿足要求了。

GBDT

網友說可以使用GBDT的方法來進行數據預測。所以，我們先來聊聊GBDT算法的一些基礎知識。

熵

凡是說到算法，人工智能，機器學習的文章，多半一定要說到熵這個概念的。什么是熵？
百度一下：

熵（entropy）指的是體系的混亂的程度，它在控制論、概率論、數論、天體物理、生命科學等領域都有重要應用，在不同的學科中也有引申出的更為具體的定義，是各領域十分重要的參量。熵由魯道夫·克勞修斯（Rudolf Clausius）提出，並應用在熱力學中。后來在，克勞德·艾爾伍德·香農（Claude Elwood Shannon）第一次將熵的概念引入到信息論中來。

一個體系越是單調，則熵越低，反之亦然。
這里我們引用數據挖掘大神的文章來接單說一下熵。

如果有一個字符串，里面包含了4種字符，每種出現的概率都是P= 1/4。
P(X=A) = 1/4
P(X=B) = 1/4
P(X=C) = 1/4
P(X=D) = 1/4
這樣的字符串可能是：BAACBADCDADDDA。傳送這樣的字符串，每一個字符需要用幾個bit？
答案是2個bit
A = 00, B = 01, C = 10, D =11
如果有一個字符串，里面包含了4種字符，但是每個字符串出現的概率不同
P(X=A) = 1/2
P(X=B) = 1/4
P(X=C) = 1/8
P(X=D) = 1/8
傳送這樣的字符串，每一個字符平均需要用幾個bit？注意這里說平均。
答案是1.75個bit
A = 0, B = 10, C = 110, D =111
(如果使用等概率的方法， A = 00, B = 01, C = 10, D =11，則無法節省編碼量，還是2個bit)
這里巧妙的做到了，出現概率高的字符，使用的bit位少，同時做到了編碼上的問題。
（AB =〉010 和 C 110，D 111 不重復。AA =〉00 和 B 10 不重復等）
有如果有一個字符串，里面3種字符串，每種出現概率都是 1/3呢？
最簡單的編碼方式是 A = 00, B = 01, C = 10, 這樣是2個bit，但是如果好好計算一下，可以做到1.6個bit。
A=10，B= 11，C = 0（理論上是1.58496 個bit）
有如果有一個字符串，里面N種字符串，每種出現概率是 PN呢？
如果有一個字符串，里面包含了4種字符，每種出現的概率都是P= 1/4 = 0.25。
log(0.25,2) = - 2
H(X) = - (1/4) * log(0.25,2) - (1/4) * log(0.25,2) - (1/4) * log(0.25,2) - (1/4) * log(0.25,2) = 2;
如果要表示下圖的H（X）和H（Y）呢？

這個很容易計算
這個很容易計算
H（X）= 1.5

P（Math） = 1/2 P（History）= 1/4 P（CS）= 1/4
log(0.25,2) = - 2 log(0.5,2) = - 1
H(X) = - (1/2) * log(0.5,2) - (1/4) * log(0.25,2) - (1/4) * log(0.25,2) = 0.5 + 0.5 + 0.5 = 1.5;

H（Y）= 1
P（Yes） = 1/2 P（No） = 1/2
H(Y) = - (1/2) * log(0.5,2) - (1/2) * log(0.5,2) = 0.5 + 0.5 = 1;

如果說，我們的計算范圍只是 X = Math 的數據。那么這個時候 H（Y | X = Math) 是多少呢？是多少呢？答案是1。（一共4條記錄，但是Y有兩種可能性）
如果說，我們的計算范圍只是 X = Histroy 的數據。那么這個時候 H（Y| X = Histroy)是多少呢？答案也是 0 。（一共2條記錄，但是Y只是一種可能性）
如果說，我們的計算范圍只是 X = CS 的數據。那么這個時候 H（Y| X = CS)是多少呢？答案也是 0 。（一共2條記錄，但是Y只是一種可能性）

H（Y | X ): 條件熵 Conditional Entropy

現在我們考慮一個問題，如果我們需要將Y傳輸出去。當然，如果直接傳輸的話， H（Y）= 1。
如果我們在傳輸的時候，雙方都知道X的值，則需要熵定義為H（Y | X )。

例如：大家都知道X=History，則 Y 必然是 NO， H（Y ) = 0 ， Histroy的可能性是1/4 ，需要的傳輸量是 0（CS同理）
大家都知道X=Math，則 Y 可能是 Yes或者No，H（Y ) = 1 ，Math的可能性是1/2 ，需要的平均傳輸率是 1/2 * 1 = 0.5
Math的概率 P（Math） = 1/2 ； History的概率 P（Histroy）= 1/4； History的概率 P（CS）= 1/4；
則我們定義H（Y | X ) = H（Y | X = Math) * P（Math） + H（Y| X = Histroy) * P（Histroy） + H（Y| X = CS) * P（CS） = 0.5

Information Gain 信息增益和 Relative Information Gain

信息增益是什么，我們先從它的用處來了解它：
信息增益是特征選擇中的一個重要指標，它定義為一個特征能夠為分類系統帶來多少信息，帶來的信息越多，該特征越重要。

指標選擇

回到滴滴算法的問題，我們應該挑選哪些指標作為GBDT的參考呢？

滴滴算法大賽算法解決過程 - 數據分析
 滴滴算法大賽算法解決過程 - 擬合算法
 滴滴算法大賽算法解決過程 - 方案設計
 滴滴算法大賽算法解決過程 - 機器學習

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 滴滴算法大賽算法解決過程(實時更新) 機器學習算法機器學習（一）梯度下降算法的實現及過程分析機器學習算法分類機器學習的算法選擇機器學習之KNN算法機器學習算法選擇機器學習定義及常用算法 python機器學習之KNN算法機器學習——線性回歸算法