1、前面的知識基礎
關於ctr預測:
常用的模型就是邏輯回歸,線性預測可以直觀的反應出各個變量在預測中的權重比較有利於運營部門,大約70%的模型都是采用邏輯回歸模型。
首先就是從用戶信息廣告信息以及上下文信息中提取出特征來然后進行訓練。
2、數學基礎
局部最優解如何成為全局最優解?對於凸函數來說以上問題成立:
什么是凸函數?如何判斷某個函數是不是凸函數?
1、從定義上判斷,只適用於簡單的函數
2、從函數的二階導數判斷,(二階導數大於0)
3、組合函數的判斷
當函數是多維函數時:需要判斷其海森矩陣:
PSD 半正定矩陣;
最大似然函數
3、邏輯回歸模型
線性回歸模型通過sigmoid函數后得出的結果;
關於sigmoid函數:
似然函數:
最后得到邏輯回歸的似然函數:
得到似然函數后需要對齊進行最小化。
最常用的就是梯度下降法;基本上所有的模型都可以使用梯度下降法;
4、特征提取
使用文件IO進行讀取文件構成特征向量,多文件的向量提取:
首先構成主特征向量,然后根據主特征向量中的不同字段進行擴充,比如上面手寫中的用戶信息中的性別信息可以使用用戶ID號去尋找用戶信息中的其他的特征,找到后加入到主特征向量中,完成特征向量的擴充。