機器學習在馬蜂窩酒店聚合中的應用初探

本文轉載自查看原文 2020-01-17 15:32 304 技術干貨/ 聚合/ 算法/ boosting/ 機器學習/ 決策樹

出門旅行，訂酒店是必不可少的一個環節。住得干凈、舒心對於每個出門在外的人來說都非常重要。

在線預訂酒店讓這件事更加方便。當用戶在馬蜂窩打開一家選中的酒店時，不同供應商提供的預訂信息會形成一個聚合列表准確地展示給用戶。這樣做首先避免同樣的信息多次展示給用戶影響體驗，更重要的是幫助用戶進行全網酒店實時比價，快速找到性價比最高的供應商，完成消費決策。

酒店聚合能力的強弱，決定着用戶預訂酒店時可選價格的「厚度」，進而影響用戶個性化、多元化的預訂體驗。為了使酒店聚合更加實時、准確、高效，現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什么，以及時下熱門的機器學習技術在酒店聚合中是如何應用的。

Part.1 應用場景和挑戰

1.酒店聚合的應用場景

馬蜂窩酒旅平台接入了大量的供應商，不同供應商會提供很多相同的酒店，但對同一酒店的描述可能會存在差異，比如：

酒店聚合要做的，就是將這些來自不同供應商的酒店信息聚合在一起集中展示給用戶，為用戶提供一站式實時比價預訂服務：

下圖為馬蜂窩對不同供應商的酒店進行聚合后的展示，不同供應商的報價一目了然，用戶進行消費決策更加高效、便捷。

2.挑戰

(1) 准確性

上文說過，不同供應商對於同一酒店的描述可能存在偏差。如果聚合出現錯誤，就會導致用戶在 App 中看到的酒店不是實際想要預訂的：

在上圖中，用戶在 App 中希望打開的是「精途酒店」，但系統可能為用戶訂到了供應商 E 提供的「精品酒店」，對於這類聚合錯誤的酒店我們稱之為「AB 店」。可以想象，當到店后卻發現沒有訂單，這無疑會給用戶體驗造成災難性的影響。

(2) 實時性

解決上述問題，最直接的方式就是全部采取人工聚合。人工聚合可以保證高准確率，在供應商和酒店數據量還不是那么大的時候是可行的。

但馬蜂窩對接的是全網供應商的酒店資源。采用人工的方式聚合處理得會非常慢，一來會造成一些酒店資源沒有聚合，無法為用戶展示豐富的預訂信息；二是如果價格出現波動，無法為用戶及時提供當前報價。而且還會耗費大量的人力資源。

酒店聚合的重要性顯而易見。但隨着業務的發展，接入的酒店數據快速增長，越來越多的技術難點和挑戰接踵而來。

Part.2 初期方案：余弦相似度算法

初期我們基於余弦相似度算法進行酒店聚合處理，以期降低人工成本，提高聚合效率。

通常情況下，有了名稱、地址、坐標這些信息，我們就能對一家酒店進行唯一確定。當然，最容易想到的技術方案就是通過比對兩家酒店的名稱、地址、距離來判斷是否相同。

基於以上分析，我們初版技術方案的聚合流程為：

輸入待聚合酒店 A；
ES 搜索與 A 酒店相距 5km 范圍內相似度最高的 N 家線上酒店；
N 家酒店與 A 酒店分別開始進行兩兩比對；
酒店兩兩計算整體名稱余弦相似度、整體地址余弦相似度、距離；
通過人工制定相似度、距離的閾值來得出酒店是否相同的結論。

整體流程示意圖如下：

「酒店聚合流程 V1」上線后，我們驗證了這個方案是可行的。它最大的優點就是簡單，技術實現、維護成本很低，同時機器也能自動處理部分酒店聚合任務，相比完全人工處理更加高效及時。

但也正是因為這個方案太簡單了，問題也同樣明顯，我們來看下面的例子 (圖中數據虛構，僅為方便舉例)：

相信我們每個人都可以很快判斷出這是兩家不同的酒店。但是當機器進行整體的相似度計算時，得到的數值並不低：

為了降低誤差率，我們需要將相似度比對的閾值提升至一個較高的指標范圍內，因此大量的相似酒店都不會自動聚合，仍需要人工處理。

最后，此版方案機器能自動處理的部分只占到約 30%，剩余 70% 仍需要人工處理；且機器自動聚合准確率約為 95%，也就是有 5% 的概率會產生 AB 店，用戶到店無單，入住體驗非常不好。

於是，伴隨着機器學習的興起，我們開始了將機器學習技術應用於酒店聚合中的探索之旅，來解決實時性和准確性這對矛盾。

Part.3 機器學習在酒店聚合中的應用

下面我將結合酒店聚合業務場景，分別從機器學習中的分詞處理、特征構建、算法選擇、模型訓練迭代、模型效果來一一介紹。

3.1 分詞處理

之前的方案通過比對「整體名稱、地址」獲取相似度，粒度太粗。

分詞是指對酒店名稱、地址等進行文本切割，將整體的字符串分為結構化的數據，目的是解決名稱、地址整體比對粒度太粗的問題，同時也為后面構建特征向量做准備。

3.1.1 分詞詞典

在聊具體的名稱、地址分詞之前，我們先來聊一下分詞詞典的構建。現有分詞技術一般都基於詞典進行分詞，詞典是否豐富、准確，往往決定了分詞結果的好壞。

在對酒店的名稱分詞時，我們需要使用到酒店品牌、酒店類型詞典，如果純靠人工維護的話，需要耗費大量的人力，且效率較低，很難維護出一套豐富的詞典。

在這里我們使用統計的思想，采用機器+人工的方式來快速維護分詞詞典：

隨機選取 100000+酒店，獲取其名稱數據；
對名稱從后往前、從前往后依次逐級切割；
每一次切割獲取切割詞且切割詞的出現頻率+1；
出現頻率較高的詞，往往就是酒店品牌詞或類型詞。

上表中示意的是出現頻率較高的詞，得到這些詞后再經過人工簡單篩查，很快就能構建出酒店品牌、酒店類型的分詞詞典。

3.1.2 名稱分詞

想象一下人是如何比對兩家酒店名稱的？比如：

A：7 天酒店 (酒仙橋店)
B：如家酒店 (望京店)

首先，因為經驗知識的存在，人會不自覺地進行「先分詞后對比」的判斷過程，即：

7 天--->如家
酒店--->酒店
酒仙橋店--->望京店

所以要想對比准確，我們得按照人的思維進行分詞。經過對大量酒店名稱進行人工模擬分詞，我們對酒店名稱分為如下結構化字段：

着重說下「類型前 2 字」這個字段。假如我們需要對如下 2 家酒店名稱進行分詞：

酒店 1：龍門南昆山碧桂園紫來龍庭溫泉度假別墅
酒店 2：龍門南昆山碧桂園瀚名居溫泉度假別墅

分詞效果如下：

我們看到分詞后各個字段相似度都很高。但類型前 2 字分別為：

酒店 1 類型前 2 字：龍庭
酒店 2 類型前 2 字：名居

這種情況下此字段 (類型前 2 字) 具有極高的區分度，因此可以作為一個很高效的對比特征。

3.1.3 地址分詞

同樣，模擬人的思維進行地址分詞，使之地址的比對粒度更細更具體。具體分詞方式見下圖：

下面是具體的分詞效果展示如下：

小結

分詞解決了對比粒度太粗的缺點，現在我們大約有了 20 個對比維度。但對比規則、閾值怎么確定呢？

人工制定規則、閾值存在很多缺點，比如：

規則多變。20 個對比維度進行組合會出現 N 個規則，人工不可能全部覆蓋這些規則；
人工制定閾值容易受「經驗主義」先導，容易出現誤判。

所以，對比維度雖然豐富了，但規則制定的難度相對來說提升了 N 個數量級。機器學習的出現，正好可以彌補這個缺點。機器學習通過大量訓練數據，從而學習到多變的規則，有效解決人基本無法完成的任務。

下面我們來詳細看下特征構建以及機器學習的過程。

3.2 特征構建

我們花了很大的力氣來模擬人的思維進行分詞，其實也是為構建特征向量做准備。

特征構建的過程其實也是模擬人思維的一個過程，目的是針對分詞的結構化數據進行兩兩比對，將比對結果數字化以構造特征向量，為機器學習做准備。

對於不同供應商，我們確定能拿到的數據主要包括酒店名稱、地址、坐標經緯度，可能獲得的數據還包括電話和郵箱。

經過一系列數據調研，最終確定可用的數據為名稱、地址、電話，主要是：因為

部分供應商經緯度坐標系有問題，精准度不高，因此我們暫不使用，但待聚合酒店距離限制在 5km 范圍內；
郵箱覆蓋率較低，暫不使用。

要注意的是，名稱、地址拓展對比維度主要基於其分詞結果，但電話數據加入對比的話首先要進行電話數據格式的清洗。

最終確定的特征向量大致如下，因為相似度算法比較簡單，這里不再贅述：

3.3 算法選擇：決策樹

判斷酒店是否相同，很明顯這是有監督的二分類問題，判斷標准為：

有人工標注的訓練集、驗證集、測試集;
輸入兩家酒店，模型返回的結果只分為「相同」或「不同」兩類情況。

經過對多個現有成熟算法的對比，我們最終選擇了決策樹，核心思想是根據在不同 Feature 上的划分，最終得到決策樹。每一次划分都向減小信息熵的方向進行，從而做到每一次划分都減少一次不確定性。這里摘錄一張圖片，方便大家理解：

（圖源：《機器學習西瓜書》）

3.3.1 Ada Boosting OR Gradient Boosting

具體的算法我們選擇的是 Boosting。「三個臭皮匠，頂過諸葛亮」這句話是對 Boosting 很好的描述。Boosting 類似於專家會診，一個人決策可能會有不確定性，可能會失誤，但一群人最終決策產生的誤差通常就會非常小。

Boosting 一般以樹模型作為基礎，其分類目前主要為 Ada Boosting、Gradient Boosting。Ada Boosting初次得出來一個模型，存在無法擬合的點，然后對無法擬合的點提高權重，依次得到多個模型。得出來的多個模型，在預測的時候進行投票選擇。如下圖所示：

Gradient Boosting 則是通過對前一個模型產生的錯誤由后一個模型去擬合，對於后一個模型產生的錯誤再由后面一個模型去擬合…然后依次疊加這些模型：

一般來說，Gradient Boosting 在工業界使用的更廣泛，我們也以 Gradient Boosting 作為基礎。

3.3.2 XGBoost OR LightGBM

XGBoost、LightGBM 都是 Gradient Boosting 的一種高效系統實現。

我們分別從內存占用、准確率、訓練耗時方面進行了對比，LightGBM 內存占用降低了很多，准確率方面兩者基本一致，但訓練耗時卻也降低了很多。

內存占用對比：

准確率對比：

訓練耗時對比：

(圖源：微軟亞洲研究院）

基於以上對比數據參考，為了模型快速迭代訓練，我們最終選擇了 LightGBM。

3.4 模型訓練迭代

由於使用 LightGBM，訓練耗時大大縮小，所以我們可以進行快速的迭代。

模型訓練主要關注兩方面內容：

訓練結果分析
模型超參調節

3.4.1 訓練結果分析

訓練結果可能一開始差強人意，沒有達到理想的效果，這時需要我們仔細分析什么原因導致的這個結果，是特征向量的問題？還是相似度計算的問題？還是算法的問題？具體原因具體分析，但總歸會慢慢達到理想的結果。

3.4.2 模型超參調節

這里主要介紹一些超參數調節的經驗。首先大致說一下比較重要的參數：

(1) maxdepth 與 numleaves

maxdepth 與 numleaves 是提高精度以及防止過擬合的重要參數：

maxdepth : 顧名思義為「樹的深度」，過大可能導致過擬合
numleaves 一棵樹的葉子數。LightGBM 使用的是 leaf-wise 算法，此參數是控制樹模型復雜度的主要參數

(2) feature_fraction 與 bagging_fraction

feature_fraction 與 bagging_fraction 可以防止過擬合以及提高訓練速度：

feature_fraction :隨機選擇部分特征 (0<feature_fraction <1)
bagging_fraction 隨機選擇部分數據 (0<bagging_fraction<1)

(3) lambda_l1 與 lambda_l2

lambda_l1 與 lambda_l2 都是正則化項，可以有效防止過擬合。

lambda_l1 :L1 正則化項
lambda_l2 :L2 正則化項

3.5 模型效果

經過多輪迭代、優化、驗證，目前我們的酒店聚合模型已趨於穩定。

對方案效果的評估通常是憑借「准確率」與「召回率」兩個指標。但酒店聚合業務場景下，需要首先保證絕對高的准確率(聚合錯誤產生 AB 店影響用戶入住)，然后才是較高的召回率。

經過多輪驗證，目前模型的准確率可以達到 99.92% 以上，召回率也達到了 85.62% 以上：

可以看到准確率已經達到一個比較高的水准。但為保險起見，聚合完成后我們還會根據酒店名稱、地址、坐標、設施、類型等不同維度建立一套二次校驗的規則；同時對於部分當天預訂當天入住的訂單，我們還會介入人工進行實時的校驗，來進一步控制 AB 店出現的風險。

3.6 方案總結

整體方案介紹完后，我們將基於機器學習的酒店聚合流程大致示意為下圖：

經過上面的探索，我們大致理解了：

解決方案都是一個慢慢演進的過程，當發現滿足不了需求的時候就會進行迭代；
分詞解決了對比粒度太粗的缺點，模擬人的思維進行斷句分詞；
機器學習可以得到復雜的規則，通過大量訓練數據解決人無法完成的任務。

Part 4 寫在最后

新技術的探索充滿挑戰也很有意義。未來我們會進一步迭代優化，高效完成酒店的聚合，保證信息的准確性和及時性，提升用戶的預訂體驗，比如：

進行不同供應商國內酒店資源的坐標系統一。坐標對於酒店聚合是很重要的 Feature，相信坐標系統一后，酒店聚合的准確率、召回率會進一步提高。
打通風控與聚合的閉環。風控與聚合建立實時雙向數據通道，從而進一步提高兩個服務的基礎能力。

上述主要講的是國內酒店聚合的演進方案，對於「國外酒店」數據的機器聚合，方法其實又很不同，比如國外酒店名稱、地址如何分詞，詞形還原與詞干提取怎么做等，我們在這方面有相應的探索和實戰，總體效果甚至優於國內酒店的聚合，后續我們也會通過文章和大家分享，希望感興趣的同學持續關注。

本文作者：劉書超，交易中心-酒店搜索研發工程師；賀夏龍、康文雲，智能中台-內容挖掘工程師。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 OpenResty 在馬蜂窩廣告監測中的應用馬蜂窩逆向狀態機在馬蜂窩機票訂單交易系統中的應用與優化實踐馬蜂窩數據倉庫的架構、模型與應用實踐馬蜂窩 IM 移動端架構的從 0 到 1 馬蜂窩火車票系統服務化改造初探馬蜂窩支付中心架構演進馬蜂窩cookie逆向更新(ast) Kafka 集群在馬蜂窩大數據平台的優化與應用擴展馬蜂窩用戶內容貢獻能力模型構建