機器學習在馬蜂窩酒店聚合中的應用初探


出門旅行,訂酒店是必不可少的一個環節。住得干凈、舒心對於每個出門在外的人來說都非常重要。

在線預訂酒店讓這件事更加方便。當用戶在馬蜂窩打開一家選中的酒店時,不同供應商提供的預訂信息會形成一個聚合列表准確地展示給用戶。這樣做首先避免同樣的信息多次展示給用戶影響體驗,更重要的是幫助用戶進行全網酒店實時比價,快速找到性價比最高的供應商,完成消費決策。

酒店聚合能力的強弱,決定着用戶預訂酒店時可選價格的「厚度」,進而影響用戶個性化、多元化的預訂體驗。為了使酒店聚合更加實時、准確、高效,現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什么,以及時下熱門的機器學習技術在酒店聚合中是如何應用的。

Part.1 應用場景和挑戰

1.酒店聚合的應用場景

馬蜂窩酒旅平台接入了大量的供應商,不同供應商會提供很多相同的酒店,但對同一酒店的描述可能會存在差異,比如:

酒店聚合要做的,就是將這些來自不同供應商的酒店信息聚合在一起集中展示給用戶,為用戶提供一站式實時比價預訂服務:

下圖為馬蜂窩對不同供應商的酒店進行聚合后的展示,不同供應商的報價一目了然,用戶進行消費決策更加高效、便捷。

2.挑戰

(1) 准確性

上文說過,不同供應商對於同一酒店的描述可能存在偏差。如果聚合出現錯誤,就會導致用戶在 App 中看到的酒店不是實際想要預訂的:

在上圖中,用戶在 App 中希望打開的是「精途酒店」,但系統可能為用戶訂到了供應商 E 提供的「精品酒店」,對於這類聚合錯誤的酒店我們稱之為 「AB 店」。可以想象,當到店后卻發現沒有訂單,這無疑會給用戶體驗造成災難性的影響。

(2) 實時性

解決上述問題,最直接的方式就是全部采取人工聚合。人工聚合可以保證高准確率,在供應商和酒店數據量還不是那么大的時候是可行的。

但馬蜂窩對接的是全網供應商的酒店資源。采用人工的方式聚合處理得會非常慢,一來會造成一些酒店資源沒有聚合,無法為用戶展示豐富的預訂信息;二是如果價格出現波動,無法為用戶及時提供當前報價。而且還會耗費大量的人力資源。

酒店聚合的重要性顯而易見。但隨着業務的發展,接入的酒店數據快速增長,越來越多的技術難點和挑戰接踵而來。

Part.2 初期方案:余弦相似度算法

初期我們基於余弦相似度算法進行酒店聚合處理,以期降低人工成本,提高聚合效率。

通常情況下,有了名稱、地址、坐標這些信息,我們就能對一家酒店進行唯一確定。當然,最容易想到的技術方案就是通過比對兩家酒店的名稱、地址、距離來判斷是否相同。

基於以上分析,我們初版技術方案的聚合流程為:

  1. 輸入待聚合酒店 A;

  2. ES 搜索與 A 酒店相距 5km 范圍內相似度最高的 N 家線上酒店;

  3. N 家酒店與 A 酒店分別開始進行兩兩比對;

  4. 酒店兩兩計算整體名稱余弦相似度、整體地址余弦相似度、距離;

  5. 通過人工制定相似度、距離的閾值來得出酒店是否相同的結論。

整體流程示意圖如下:

「酒店聚合流程 V1」上線后,我們驗證了這個方案是可行的。它最大的優點就是簡單,技術實現、維護成本很低,同時機器也能自動處理部分酒店聚合任務,相比完全人工處理更加高效及時。

但也正是因為這個方案太簡單了,問題也同樣明顯,我們來看下面的例子 (圖中數據虛構,僅為方便舉例):

相信我們每個人都可以很快判斷出這是兩家不同的酒店。但是當機器進行整體的相似度計算時,得到的數值並不低:

為了降低誤差率,我們需要將相似度比對的閾值提升至一個較高的指標范圍內,因此大量的相似酒店都不會自動聚合,仍需要人工處理。

最后,此版方案機器能自動處理的部分只占到約 30%,剩余 70% 仍需要人工處理;且機器自動聚合准確率約為 95%,也就是有 5% 的概率會產生 AB 店,用戶到店無單,入住體驗非常不好。

於是,伴隨着機器學習的興起,我們開始了將機器學習技術應用於酒店聚合中的探索之旅,來解決實時性和准確性這對矛盾。

Part.3 機器學習在酒店聚合中的應用

下面我將結合酒店聚合業務場景,分別從機器學習中的分詞處理、特征構建、算法選擇、模型訓練迭代、模型效果來一一介紹。

3.1 分詞處理

之前的方案通過比對「整體名稱、地址」獲取相似度,粒度太粗。

分詞是指對酒店名稱、地址等進行文本切割,將整體的字符串分為結構化的數據,目的是解決名稱、地址整體比對粒度太粗的問題,同時也為后面構建特征向量做准備。

3.1.1 分詞詞典

在聊具體的名稱、地址分詞之前,我們先來聊一下分詞詞典的構建。現有分詞技術一般都基於詞典進行分詞,詞典是否豐富、准確,往往決定了分詞結果的好壞。

在對酒店的名稱分詞時,我們需要使用到酒店品牌、酒店類型詞典,如果純靠人工維護的話,需要耗費大量的人力,且效率較低,很難維護出一套豐富的詞典。

在這里我們使用統計的思想,采用機器+人工的方式來快速維護分詞詞典:

  1. 隨機選取 100000+酒店,獲取其名稱數據;

  2. 對名稱從后往前、從前往后依次逐級切割;

  3. 每一次切割獲取切割詞且切割詞的出現頻率+1;

  4. 出現頻率較高的詞,往往就是酒店品牌詞或類型詞。

上表中示意的是出現頻率較高的詞,得到這些詞后再經過人工簡單篩查,很快就能構建出酒店品牌、酒店類型的分詞詞典。

3.1.2 名稱分詞

想象一下人是如何比對兩家酒店名稱的?比如:

  • A:7 天酒店 (酒仙橋店)

  • B:如家酒店 (望京店)

首先,因為經驗知識的存在,人會不自覺地進行「先分詞后對比」的判斷過程,即:

  • 7 天--->如家 

  • 酒店--->酒店 

  • 酒仙橋店--->望京店

所以要想對比准確,我們得按照人的思維進行分詞。經過對大量酒店名稱進行人工模擬分詞,我們對酒店名稱分為如下結構化字段:

着重說下「類型前 2 字」這個字段。假如我們需要對如下 2 家酒店名稱進行分詞: 

  • 酒店 1:龍門南昆山碧桂園紫來龍庭溫泉度假別墅

  • 酒店 2:龍門南昆山碧桂園瀚名居溫泉度假別墅

分詞效果如下:

我們看到分詞后各個字段相似度都很高。但類型前 2 字分別為:

  • 酒店 1 類型前 2 字:龍庭 

  • 酒店 2 類型前 2 字:名居 

這種情況下此字段 (類型前 2 字) 具有極高的區分度,因此可以作為一個很高效的對比特征。

3.1.3 地址分詞

同樣,模擬人的思維進行地址分詞,使之地址的比對粒度更細更具體。具體分詞方式見下圖:

下面是具體的分詞效果展示如下: 

小結

分詞解決了對比粒度太粗的缺點,現在我們大約有了 20 個對比維度。但對比規則、閾值怎么確定呢?

人工制定規則、閾值存在很多缺點,比如:

  1. 規則多變。20 個對比維度進行組合會出現 N 個規則,人工不可能全部覆蓋這些規則;

  2. 人工制定閾值容易受「經驗主義」先導,容易出現誤判。

所以,對比維度雖然豐富了,但規則制定的難度相對來說提升了 N 個數量級。機器學習的出現,正好可以彌補這個缺點。機器學習通過大量訓練數據,從而學習到多變的規則,有效解決人基本無法完成的任務。

下面我們來詳細看下特征構建以及機器學習的過程。

3.2 特征構建

我們花了很大的力氣來模擬人的思維進行分詞,其實也是為構建特征向量做准備。

特征構建的過程其實也是模擬人思維的一個過程,目的是針對分詞的結構化數據進行兩兩比對,將比對結果數字化以構造特征向量,為機器學習做准備。

對於不同供應商,我們確定能拿到的數據主要包括酒店名稱、地址、坐標經緯度,可能獲得的數據還包括電話和郵箱。

經過一系列數據調研,最終確定可用的數據為名稱、地址、電話,主要是:因為

  1. 部分供應商經緯度坐標系有問題,精准度不高,因此我們暫不使用,但待聚合酒店距離限制在 5km 范圍內;

  2. 郵箱覆蓋率較低,暫不使用。

要注意的是,名稱、地址拓展對比維度主要基於其分詞結果,但電話數據加入對比的話首先要進行電話數據格式的清洗。

最終確定的特征向量大致如下,因為相似度算法比較簡單,這里不再贅述:

3.3 算法選擇:決策樹

判斷酒店是否相同,很明顯這是有監督的二分類問題,判斷標准為:

  • 有人工標注的訓練集、驗證集、測試集; 

  • 輸入兩家酒店,模型返回的結果只分為「相同」或「不同」兩類情況。

經過對多個現有成熟算法的對比,我們最終選擇了決策樹,核心思想是根據在不同 Feature 上的划分,最終得到決策樹。每一次划分都向減小信息熵的方向進行,從而做到每一次划分都減少一次不確定性。這里摘錄一張圖片,方便大家理解:

(圖源:《機器學習西瓜書》)

3.3.1 Ada Boosting OR Gradient Boosting

具體的算法我們選擇的是 Boosting。「三個臭皮匠,頂過諸葛亮」這句話是對 Boosting 很好的描述。Boosting 類似於專家會診,一個人決策可能會有不確定性,可能會失誤,但一群人最終決策產生的誤差通常就會非常小。

Boosting 一般以樹模型作為基礎,其分類目前主要為 Ada Boosting、Gradient Boosting。Ada Boosting初次得出來一個模型,存在無法擬合的點,然后對無法擬合的點提高權重,依次得到多個模型。得出來的多個模型,在預測的時候進行投票選擇。如下圖所示:

Gradient Boosting 則是通過對前一個模型產生的錯誤由后一個模型去擬合,對於后一個模型產生的錯誤再由后面一個模型去擬合…然后依次疊加這些模型:

一般來說,Gradient Boosting 在工業界使用的更廣泛,我們也以 Gradient Boosting 作為基礎。

3.3.2  XGBoost OR LightGBM

XGBoost、LightGBM 都是 Gradient Boosting 的一種高效系統實現。

我們分別從內存占用、准確率、訓練耗時方面進行了對比,LightGBM 內存占用降低了很多,准確率方面兩者基本一致,但訓練耗時卻也降低了很多。

內存占用對比:

准確率對比:

訓練耗時對比:

(圖源:微軟亞洲研究院)

基於以上對比數據參考,為了模型快速迭代訓練,我們最終選擇了 LightGBM。

3.4 模型訓練迭代

由於使用 LightGBM,訓練耗時大大縮小,所以我們可以進行快速的迭代。

模型訓練主要關注兩方面內容: 

  • 訓練結果分析

  • 模型超參調節

3.4.1 訓練結果分析

訓練結果可能一開始差強人意,沒有達到理想的效果,這時需要我們仔細分析什么原因導致的這個結果,是特征向量的問題?還是相似度計算的問題?還是算法的問題?具體原因具體分析,但總歸會慢慢達到理想的結果。

3.4.2 模型超參調節

這里主要介紹一些超參數調節的經驗。首先大致說一下比較重要的參數:

(1) maxdepth 與 numleaves 

maxdepth 與 numleaves 是提高精度以及防止過擬合的重要參數:

  • maxdepth : 顧名思義為「樹的深度」,過大可能導致過擬合

  • numleaves 一棵樹的葉子數。LightGBM 使用的是 leaf-wise 算法,此參數是控制樹模型復雜度的主要參數

(2) feature_fraction 與 bagging_fraction 

 feature_fraction 與 bagging_fraction 可以防止過擬合以及提高訓練速度:

  • feature_fraction :隨機選擇部分特征 (0<feature_fraction <1)

  • bagging_fraction 隨機選擇部分數據 (0<bagging_fraction<1)

(3)  lambda_l1 與 lambda_l2 

  lambda_l1 與  lambda_l2  都是正則化項,可以有效防止過擬合。

  • lambda_l1 :L1 正則化項

  • lambda_l2 :L2 正則化項

3.5 模型效果

經過多輪迭代、優化、驗證,目前我們的酒店聚合模型已趨於穩定。

對方案效果的評估通常是憑借「准確率」與「召回率」兩個指標。但酒店聚合業務場景下,需要首先保證絕對高的准確率(聚合錯誤產生 AB 店影響用戶入住),然后才是較高的召回率。

經過多輪驗證,目前模型的准確率可以達到 99.92% 以上,召回率也達到了 85.62% 以上:

可以看到准確率已經達到一個比較高的水准。但為保險起見,聚合完成后我們還會根據酒店名稱、地址、坐標、設施、類型等不同維度建立一套二次校驗的規則;同時對於部分當天預訂當天入住的訂單,我們還會介入人工進行實時的校驗,來進一步控制 AB 店出現的風險。

 

3.6 方案總結

 

整體方案介紹完后,我們將基於機器學習的酒店聚合流程大致示意為下圖:

經過上面的探索,我們大致理解了:

  1. 解決方案都是一個慢慢演進的過程,當發現滿足不了需求的時候就會進行迭代;

  2. 分詞解決了對比粒度太粗的缺點,模擬人的思維進行斷句分詞;

  3. 機器學習可以得到復雜的規則,通過大量訓練數據解決人無法完成的任務。

Part 4 寫在最后

新技術的探索充滿挑戰也很有意義。未來我們會進一步迭代優化,高效完成酒店的聚合,保證信息的准確性和及時性,提升用戶的預訂體驗,比如:

  1. 進行不同供應商國內酒店資源的坐標系統一。坐標對於酒店聚合是很重要的 Feature,相信坐標系統一后,酒店聚合的准確率、召回率會進一步提高。

  2. 打通風控與聚合的閉環。風控與聚合建立實時雙向數據通道,從而進一步提高兩個服務的基礎能力。

上述主要講的是國內酒店聚合的演進方案,對於「國外酒店」數據的機器聚合,方法其實又很不同,比如國外酒店名稱、地址如何分詞,詞形還原與詞干提取怎么做等,我們在這方面有相應的探索和實戰,總體效果甚至優於國內酒店的聚合,后續我們也會通過文章和大家分享,希望感興趣的同學持續關注。

本文作者:劉書超,交易中心-酒店搜索研發工程師;賀夏龍、康文雲,智能中台-內容挖掘工程師。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM