Title:互聯網廣告中的匹配和排序算法
蔣龍博士,通聯數據
Abstract:互聯網廣告是利用互聯網提供的基礎設施進行產品和服務營銷的一種新形式,具有比傳統廣告方式更精准,成本收益更透明的優勢。互聯網廣告是當今眾多互聯網企業實現價值變現的最主要形式之一,可以說,互聯網廣告產業是當今互聯網能蓬勃發展的重要動力。
本次講座將首先對互聯網廣告產業做一個簡要的介紹,包括目前主流的幾種廣告模式,每種模式下主要的參與者及廣告形態和特點。接下來分析幾種主流廣告模式中應用到的匹配和排序技術,包括搜索廣告系統中的查詢匹配算法,定向廣告中的行為定向和個性化推薦技術,以及基於反饋數據的點擊率預估系統。
Bio: 蔣龍,畢業於北京大學,現任通聯數據首席數據科學家。曾任職於阿里巴巴集團,負責阿里媽媽事業部機器學習和排序,推薦和用戶模型,基礎算法和數據等團隊。加入阿里之前曾任職微軟亞洲研究院,從事自然語言處理、機器學習研究工作。主要感興趣的領域包括機器學習,自然語言處理,互聯網廣告,量化投資等。
PS:以下照片並不包含全部PPT內容,僅包含個人感興趣並認為有價值的PPT。
其中涉及的內容還是比較豐富的,但是不是十分詳細,不過,大家可以從中了解一下工業界是如何解決一些實際問題的,同時能夠了解一下我們所學的算法、模型是如何在實際中應用的。
Fig1,介紹了廣告算法的基本策略,總結的很簡單的兩個步驟,也很容易理解。
Fig2,這幅圖主要介紹了在搜索引擎廣告系統(比如淘寶、京東、百度這種,你在搜索框輸入Query[查詢語句/詞條],系統顯示結果)中涉及的角色,下面我對其中幾個不易明白的內容進行解釋說明。
廣告主:“買詞”的意思就是購買關鍵詞,當用戶搜索該關鍵詞,那么就會優先推薦競價高的廣告主的廣告;
“為點擊付費”就是說用戶只要點擊過廣告主的廣告,無論最終是否進行了交易,廣告主都要付給搜索引擎一定的費用;
搜索引擎:“Query分析”就是對用戶輸入的文本進行分析
“展示搜索結果+廣告”也就是說既要保證用戶體驗,又要做到廣告推薦。
Fig3,GSP的意思就是,競價排行最高的廣告主,只需要支付競價排行第二的廣告主所提出的價格,比如以前會有這種情況,A出了500W,B出了300W,當A得知自己最高的時候,會逐漸降低自己的出價,而GSP方法就可以有效的避免這種麻煩的情況出現。
其中有一個推廣質量,這個數值是為了解決這種情況,舉個比較極端的例子,廣告主A是汽車公司,廣告主B是服裝公司,雙方可以購買適合自己領域的詞,但是有可能A購買了服裝領域的詞W並且競價比B高,這時候W在A領域的推廣質量定不如在B領域的推廣質量,因此在關鍵詞為W的廣告排序的時候,不一定是A的在第一個,而且收費也會隨之進行相應調整。
Fig4,廣告主ROI:廣告主營銷投資回報;其他內容,后邊會有詳細的介紹。
Fig5,針對用戶錯誤或者不准確的輸入,系統要有“自動糾錯”的功能;
Fig6,從圖中下方的圖片可以看出“模糊匹配”的意思就是,用戶的輸入與廣告主購買的關鍵詞並不是完全一樣,但是確實指向同一物品,這時候就需要“推薦系統”來推測用戶想要什么。
Fig7,從上邊的例子可以看出,用戶輸入的字符串如果太長,那么就要對其進行切分,找出中心詞,修飾詞,然后組成新的Query,再從系統中查詢。
Term重要度計算模型,也就是說怎么計算中心詞。【★,重要度計算,在科研中經常會遇到】
類目熵的意思就是,阿里內部有自己手工構建的商品類目知識庫,根據這個知識庫來計算重要度(具體怎么計算,沒有詳細說);
TF-IDF:詞頻-逆文檔頻率;
Fig8,這個的意思就是用戶輸入了一個Query,然后點擊了一個廣告,采集大量這種數據,就可以構造“Query-廣告”的一個二部圖(從定義可以很容易看懂這個圖的組成)
原理:(1)如果兩個Query連接到相似的廣告,那么這兩個Query也是相似的;(2)如果兩個廣告連接到相似的Query,那么這兩個廣告也是相似的。
【建議看一下推薦系統方面的書籍,推薦的方法中有很多有意思、有道理但是一般不會注意或者被想到的原理(我看的是《推薦系統實踐》 項亮 著)】
Fig9,左邊是Query,右邊是Ads,中間的邊上的權重是Clicks;最右邊是相似Query的結果;
Fig10,還是SimRank,其中提到的隨機游走。。。我也不懂 - -!【★待學習】
Fig11,這個就是充分利用sessions中的信息進行Term改寫(就是計算機網絡中的那個“會話”)
1-7是用戶輸入的Query,可能第一次沒找到滿意的,就自己改了一下,后來又突然想找4的內容,然后又回去找之前的東西,這些用戶行為都是可以通過Sessions來獲取的。
Fig12,查詢日志的數據挖掘,在Query Segmentation部分的那個相關性,其實就很類似與共現了,A和B就是相鄰Query;但是其中的符號“>>”,應該是遠大於的意思,所以我不太明白上邊的意思。。。
假設檢驗的方法驗證A和B是否獨立,H1的情況表示獨立,H2的情況表示不獨立;
Fig13,基於N-gram的term替換方法,其中的“#”代表“諾基亞”,對應的3-gram就是:新款-紅色-諾基亞,紅色-諾基亞-手機
Fig14,計算Query和廣告的相關性,類似於信息檢索中計算網頁和查詢的相關性。【★SVM模型】
====================廣告眾多分類中的兩個分類=======================
(搜索廣告:百度、淘寶、京東這種大型電商網站,用“搜索引擎”做廣告)
(展示廣告:比如新浪新聞首頁,這種非專門做廣告的網站,只能在用戶瀏覽一些內容的時候,順便展示一些廣告)
==========================================================
Fig15,展示廣告的一個目錄,下面主要介紹三種方式
Fig16,很容易理解。
Fig17,很容易理解。
Fig18,無法直接確定,那么就可以利用語義信息(廣告類別、網頁類別等等)進行決策。