機器學習在電商領域三大應用,推薦,搜索,廣告中商品排序


1、業務角度
一般是在一個召回的商品集合里,通過對商品排序,
追求GMV或者點擊量最大化。
基於一個目標,如何讓流量的利用效率最高。
很自然的,如果我們可以准確預估每個商品的GMV轉化率或者
點擊率,就可以最大化利用流量,從而收益最大。
2、技術服務於業務,模型本身的迭代需要配合業務目標才能發揮出
最大的價值,因此選擇模型迭代的路線,必須全盤考慮業務。
3、在點擊率預估領域,常用的是有監督的模型,其中樣本,特征,模型
是繞不開的問題。
4、首先,如何構建樣本,設計模型的目標函數是什么,即要優化什么。
原則上,我們希望樣本構建越接近真實場景越好。比如點擊率模型
常用用戶行為日志作為樣本,曝光過沒有點擊的日志是負樣本,
有點擊的是正樣本,去構建樣本集,變成一個二分類。
在另一個相似的領域-----learning to rank,樣本構建方法分為3類:
pointwise,pairwise,listwise.
5、pointwise范疇,即每一條樣本構建時不考慮與其他樣本直接的關系。
真實的場景中,往往需要考慮其他樣本的影響,比如去百度搜一個關鍵字,
會出來一系列的結果,用戶的決策會受整個排序結果影響。
6、pairwise做了一點改進,它的樣本都是pair對組成,比如電商搜索下,
商品a和商品b可以構建一個樣本,如果a 比 b好,
樣本pair{a,b}是正樣本,否則是負樣本。
當然,這會帶來新問題,比如a>b,b>c,c>a這個時候怎么辦?
7、而listwise就更接近真實,但復雜性也隨之增加,工業界用的比較少
這里不做過多描述,理論上,樣本構建方式listwise>pairwise>pointwise
但實際應用中,不一定是這個順序。
如,你在pointwise的樣本集下,模型的fit情況不是很好,比如auc不高,
這個時候上pairwise,意義不大,更應該從特征和模型入手,
一開始就選擇pairwise或者Listwise,並不是一種好的實踐方式
8、其次是模型和特征,不同模型對應不同的特征構建方式,比如廣告
的點擊率預估模型,通常就有兩種組合方式,采用大規模離散特征+logistic
regression模型或種小規模特征+復雜模型。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM