探索與利用(Explore and exploit) E&E


 點擊率預測中還有一個重要的問題,就是探索與利用,它在工程中解決的並不好,我這章把現在論文中的常見的幾種方法介紹一下。探索與利用它是所有互聯網應用都要面對的一個問題,形式化一些,可以解釋為:整體的效果是無法通過采樣得到的,因為觀察到的數據只是投放過的廣告,而很多還沒有投放的廣告,想得到它們的效果,就很困難。

         計算廣告領域的探索與利用要解決的問題是:因為長尾(a,u,c)組合極大部分在系統中並沒有出現過,所以沒有這些長尾(a,u,c)的統計量,所以要探索性地創造合適的展示機會以積累統計量,從而更准確地估計其CTR。但探索性的展示的過程是沒有按當前的eCPM最大化方法進行廣告投放,即探索的展示會讓收入下降,那么如何控制探索的量和探索的有效性,使得系統長期的,整體的收入增加,就是探索與利用的核心問題。

         如果實踐中做過廣告系統,對於這一點應該有比較深的感觸。因為無論是搜索廣告,還是聯盟廣告,在廣告主比較多的情況下,會有相當大的一批廣告主是永遠沒有機會展示的,但我們也沒有辦法讓他們得到一些展示的機會,因為要給他們展示的機會,是要付出相當大的代價的,有必要從算法的角度來討論探索與利用的問題。Explore就是探索未知世界,Exploit就是利用從未知世界得到的少部分統計量,去提高eCPM統計的准確性。

         這個問題在學術界討論的比較多,它是Reinforcement Learning中的一個具體問題,學術界通常把它描述成為一個Multi-arm Bandit(MAB)問題。這個名字的起源來自由laohuji上的扳手,扳哪個Arm贏的概率比較大,在開始的時候是不知道的,所以要用錢去探索,看哪個扳手能提供的收益最高,但試的過程是在損失自己的錢,所以用這個名字很形象地來稱這個E&E問題。

         Multi-arm Bandit通常描述為:有限個arms(或稱收益提供者)a(即上例中,laohuji的扳手是有限的,在廣告系統中它就是廣告),每個有確定有限的期望收益E(rt,a),在每個時刻t,我們必須從arms中選擇一個,最終目標是優化整體收益。MAB最基本的方法學術界稱為ε-greedy,它是一個很簡單的方法,就是將ε比例的小部分流量用於隨機探索。如果提出一種新的E&E算法,當然首先要和這種方法進行比較。

    廣告問題中有兩個主要挑戰,但它們不一定能很好地在這個框架下解決。1. 海量的組合空間需要被探索,因為要探索的是(a,u,c)這個組合空間,甚至不能認為是一個有限的空間(不是指數學上的無限),2. 因為在MAB問題中假設了各個arm的期望收益是確定的,但對於廣告來講,每個arm的收益絕對不是確定的,比如在雙11促銷前的ROI與其它時間的ROI相比,差的就很遠了。這兩個問題,我自己體會,在工程上需要研究者在以后進一步解決。

E&E算法-UCB

    關於E&E算法,我介紹兩個基本思路,大家不要把它認為是一篇論文或是一個具體的算法,我介紹的是兩個非常有借鑒意義的思路。這個領域大家比較認可的是UCB方法。

    UCB方法的思路從直覺上非常合理,它是在時間t,通過以往觀測值以及某種概率模型,計算每個arm的期望收益的upper confidence bound(UCB),並選擇UCB最大的arm。先不關注這句話中的術語,它其實也是一個bayesian的理念,在估計某個arm收益的時候,不再把它認為是一個確定的數,而是把它認為是一個分布。UCB的意思是在選擇的時候,並不是按照期望收益最大的一點去選擇,而是按照分布的收益上界去選擇。在體會這個策略的過程中,會發現它是一個很聰明的策略,它對每個arm都是選擇它最有可能達到的收益點來進行投放,隨着時間的推移,隨着觀察值的增加,分布曲線會越來越窄,最終收斂成一個固定的值。假設一個廣告的期望收益並不高,換言之,它的表現可能不是最優的,我們在UCB方法下不會永遠出這個廣告,因為經過幾次探索,它就分布曲線會迅速收斂,當發現有別的廣告比它更好的時候,就不會再出這個廣告了,但這種方法不會漏掉真正好的廣告,因為好的廣告在沒有觀察的時候,它是非常寬的一個函數分布,它的upper confidence是一個很大的值,所以總是有機會選中它,選中之后,分布會迅速收斂到實際的確定的收益。Paper中主要探討的是具體的UCB策略,比如β-UCB策略,它是證明選擇非最優的arms存在着一個上界,該上界與總的選擇次數無關。還有一個改進的策略,UCB-tuned,它證明了如果已經選擇的次數越多,就越可能自信地拋棄不太有前途(但仍可能最優)的arm。

    介紹UCB方法是因為它是一個很符合人直覺的E&E算法,其它也有很多變形的算法,大家可以看一下相關的資料。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM