風控(二):GBDT+LR完成特征非線性組合及建模


1.背景

LR屬於線性模型,容易並行化,可以輕松處理上億條數據,但是學習能力十分有限,需要大量的特征工程來增加模型的學習能力。但大量的特征工程耗時耗力同時並不一定會帶來效果提升。因此,如何自動發現有效的特征、特征組合,彌補人工經驗不足,縮短LR特征實驗周期,是亟需解決的問題。一般通過笛卡爾積進行兩兩相乘再進行降維得到特征組合,但事先不知道哪兩個特征之間有關聯,當特征幾萬個或者更多時,該方法很難實現。

FM模型通過隱變量的方式,發現兩兩特征之間的組合關系,但這種特征組合僅限於兩兩特征之間,后來發展出來了使用深度神經網絡去挖掘更高層次的特征組合關系。但其實在使用神經網絡之前,GBDT也是一種經常用來發現特征組合的有效思路。

GBDT(Gradient Boost Decision Tree)是一種常用的非線性模型,它基於集成學習中的boosting思想,每次迭代都在減少殘差的梯度方向新建立一顆決策樹,迭代多少次就會生成多少顆決策樹。GBDT的思想使其具有天然優勢可以發現多種有區分性的特征以及特征組合,決策樹的路徑可以直接作為LR輸入特征使用,省去了人工尋找特征、特征組合的步驟。但GBDT模型比較復雜且有很多冗余信息

2. GBDT + LR 

本質上GBDT+LR是一種具有stacking思想的二分類器模型,所以可以用來解決二分類問題。這個方法出自於Facebook 2014年的論文 Practical Lessons from Predicting Clicks on Ads at Facebook 。

 

圖中共有兩棵樹,x為一條輸入樣本,遍歷兩棵樹后,x樣本分別落到兩顆樹的葉子節點上,每個葉子節點對應LR一維特征,那么通過遍歷樹,就得到了該樣本對應的所有LR特征。構造的新特征向量是取值0/1的。舉例來說:上圖有兩棵樹,左樹有三個葉子節點,右樹有兩個葉子節點,最終的特征即為五維的向量。對於輸入x,假設他落在左樹第一個節點,編碼[1,0,0],落在右樹第二個節點則編碼[0,1],所以整體的編碼為[1,0,0,0,1],這類編碼作為特征,輸入到LR中進行分類。



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM