CTR預估(4)--CTR特征工程


1、特征工程

  模型與特征在機器學習中的關系:

  

  特征:決定了效果的上限;模型決定了接近效果上限的程度;

  數據格式:

  

  label:0/1點擊或者沒有點擊

  urlID:廣告的url經過hash后得到的hash值

  adid:廣告本身的ID

2、數據預處理

  (1)、label匹配

    主要就是不同數據文件中的不同的特征合到一起,整理成一個特征集;

    

  (2)負樣本采樣

    丟棄負樣本,保留正樣本,使得訓練集變小,便於訓練

    

 3、特征工程

  一般來說:

  

  Ad中title表示廣告的文字描述;瀏覽器可能會屏蔽廣告,以及不同人群使用的瀏覽器可能不同;

  對於KDDcup數據集來說:

  

  對於特征來說可以大致分為兩類:

  

  泛化能力表示使用一個特征推論其他的特征;自解釋能力使用一個特征來表示該特征的屬性。

  比如:

  

  

4、特征處理方法

  

  (1)、One Hot Encoding

  (2)、離散化

  

  3、特征組合

4、模型訓練

  訓練的目的:

  

  在這里使用邏輯斯蒂函數,進行邏輯回歸訓練。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM