1、特征工程
模型與特征在機器學習中的關系:

特征:決定了效果的上限;模型決定了接近效果上限的程度;
數據格式:

label:0/1點擊或者沒有點擊
urlID:廣告的url經過hash后得到的hash值
adid:廣告本身的ID
2、數據預處理
(1)、label匹配
主要就是不同數據文件中的不同的特征合到一起,整理成一個特征集;

(2)負樣本采樣
丟棄負樣本,保留正樣本,使得訓練集變小,便於訓練

3、特征工程
一般來說:

Ad中title表示廣告的文字描述;瀏覽器可能會屏蔽廣告,以及不同人群使用的瀏覽器可能不同;
對於KDDcup數據集來說:

對於特征來說可以大致分為兩類:

泛化能力表示使用一個特征推論其他的特征;自解釋能力使用一個特征來表示該特征的屬性。
比如:


4、特征處理方法

(1)、One Hot Encoding
(2)、離散化

3、特征組合
4、模型訓練
訓練的目的:

在這里使用邏輯斯蒂函數,進行邏輯回歸訓練。
