美團商品知識圖譜的構建及應用


商品知識圖譜作為新零售行業數字化的基石,提供了圍繞商品的精准結構化理解,對業務應用起到了至關重要的作用。相比於美團大腦中原有的圍繞商戶的圖譜而言,商品圖譜需應對更加分散、復雜、海量的數據和業務場景,且面臨着信息來源質量低、數據維度多、依賴常識以及專業知識等挑戰。本文將圍繞零售商品知識圖譜,介紹美團在商品層級建設、屬性體系建設、圖譜建設人效提升等方向的探索,希望對大家有所幫助或啟發。

  • 背景

    • 美團大腦

    • 在新零售領域的探索

    • 商品圖譜建設的目標

    • 商品圖譜建設的挑戰

  • 商品圖譜建設

    • 層級體系建設

    • 屬性維度建設

    • 效率提升

    • 人機結合-專業圖譜建設

  • 商品圖譜的落地應用

    • 結構化召回

    • 排序模型泛化性

    • 多模態圖譜嵌入

    • 用戶/商家端優化

  • 作者簡介

  • 招聘信息

背景

美團大腦

近年來,人工智能正在快速地改變人們的生活,背后其實有兩大技術驅動力:深度學習知識圖譜。我們將深度學習歸納為隱性的模型,它通常是面向某一個具體任務,比如說下圍棋、識別貓、人臉識別、語音識別等等。通常而言,在很多任務上它能夠取得很優秀的結果,同時它也有一些局限性,比如說它需要海量的訓練數據,以及強大的計算能力,難以進行跨任務的遷移,並且不具有較好的可解釋性。在另一方面,知識圖譜作為顯式模型,同樣也是人工智能的一大技術驅動力,它能夠廣泛地適用於不同的任務。相比深度學習,知識圖譜中的知識可以沉淀,具有較強的可解釋性,與人類的思考更加貼近,為隱式的深度模型補充了人類的知識積累,和深度學習互為補充。因此,全球很多大型的互聯網公司都在知識圖譜領域積極進行布局。

圖1 人工智能兩大驅動力
美團連接了數億用戶和數千萬商戶,背后也蘊含着豐富的日常生活相關知識。2018年,美團知識圖譜團隊開始構建美團大腦,着力於利用知識圖譜技術賦能業務,進一步改善用戶體驗。具體來說,美團大腦會對美團業務中涉及到的千萬級別商家、億級別的菜品/商品、數十億的用戶評論,以及背后百萬級別的場景進行深入的理解和結構化的知識建模,構建人、店、商品、場景之間的知識關聯,從而形成生活服務領域大規模的知識圖譜。現階段,美團大腦已覆蓋了數十億實體,數百億三元組,在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

 

 圖2 美團大腦

在新零售領域的探索

美團逐步突破原有邊界,在生活服務領域探索新的業務,不僅局限於通過外賣、餐飲幫大家“吃得更好”,近年來也逐步拓展到零售、出行等其他領域,幫大家“生活更好”。在零售領域中,美團先后落地了美團閃購、美團買菜、美團優選、團好貨等一系列相應的業務,逐步實現“萬物到家”的願景。為了更好地支持美團的新零售業務,我們需要對背后的零售商品建立知識圖譜,積累結構化數據,深入對零售領域內商品、用戶、屬性、場景等的理解,以便能更好地為用戶提供零售商品領域內的服務。相比於圍繞商戶的餐飲、外賣、酒店的等領域,零售商品領域對於知識圖譜的建設和應用提出了更大的挑戰。一方面,商品數量更加龐大,覆蓋的領域范圍也更加寬廣。另一方面,商品本身所具有的顯示信息往往比較稀疏,很大程度上需要結合生活中的常識知識來進行推理,方可將隱藏在背后的數十維的屬性進行補齊,完成對商品完整的理解。在下圖的例子中,“樂事黃瓜味”這樣簡單的商品描述其實就對應着豐富的隱含信息,只有對這些知識進行了結構化提取和相應的知識推理后,才能夠更好的支持下游搜索、推薦等模塊的優化。

圖3 商品結構化信息的應用

商品圖譜建設的目標

我們針對美團零售業務的特點,制定了多層級、多維度、跨業務的零售商品知識圖譜體系。

圖4 商品知識圖譜體系
多層級在不同業務的不同應用場景下,對於“商品”的定義會有所差別,需要對各個不同顆粒度的商品進行理解。因此,在我們的零售商品知識圖譜中,建立了五層的層級體系,具體包括:

  • L1-商品SKU/SPU:對應業務中所售賣的商品顆粒度,是用戶交易的對象,往往為商戶下掛的商品,例如“望京家樂福所售賣的蒙牛低脂高鈣牛奶250ml盒裝”。這一層級也是作為商品圖譜的最底層的基石,將業務商品庫和圖譜知識進行打通關聯。
  • L2-標准商品:描述商品本身客觀事實的顆粒度,例如“蒙牛低脂高鈣牛奶250ml盒裝”,無論通過什么渠道在什么商戶購買,商品本身並沒有任何區別。商品條形碼則是在標准商品這層的客觀依據。在這一層級上,我們可以建模圍繞標准商品的客觀知識,例如同一個標准商品都會具有同樣的品牌、口味、包裝等屬性。
  • L3-抽象商品:進一步我們將標准商品向上抽象的商品系列,例如“蒙牛低脂高鈣牛奶”。在這一層級中,我們不再關注商品具體的包裝、規格等,將同系列的商品聚合為抽象商品,承載了用戶對於商品的主觀認知,包括用戶對商品系列的別名俗稱、品牌認知、主觀評價等。
  • L4-主體品類:描述商品主體的本質品類,列如“雞蛋”、“奶油草莓”、“台式烤腸”等。這一層作為商品圖譜的后台類目體系,以客觀的方式對商品領域的品類進行建模,承載了用戶對於商品的需求,例如各品牌各產地的雞蛋都能夠滿足用戶對於雞蛋這個品類的需求。
  • L5-業務類目:相比於主體品類的后台類目體系,業務類目作為前台類目體系會依據業務當前的發展階段進行人工定義和調整,各個業務會根據當前業務階段的特點和需求建立對應的前台類目體系。

多維度

  • 商品屬性視角:圍繞商品本身,我們需要有海量的屬性維度來對商品進行描述。商品屬性維度主要分為兩類:一類是通用的屬性維度,包括品牌、規格、包裝、產地等;另一類是品類特有的屬性維度,例如對於牛奶品類我們會關注脂肪含量(全脂/低脂/脫脂牛奶)、存儲方式(常溫奶、冷藏奶)等。商品屬性主要是刻畫了商品的客觀知識,往往會建立在標准商品這一層級上。
  • 用戶認知視角:除了客觀的商品屬性維度以外,用戶往往對於商品會有一系列的主觀認知,例如商品的別名俗稱(“小黑瓶”、“快樂水”)、對於商品的評價(“香甜可口”、“入口即化”、“性價比高”)、商品的清單/榜單(“進口食品榜單”、“夏季消暑常備”)等維度。這些主觀認知往往會建立在抽象商品這一層級上。
  • 品類/類目視角:從品類/類目的視角來看,不同品類/類目也會有各自不同的關注點。在這一層級上,我們會建模各個品類/類目下有哪些典型的品牌、用戶關注哪些典型屬性、不同品類的復購周期是多長時間等。

跨業務美團大腦商品知識圖譜的目標是希望能夠對客觀世界中的商品知識進行建模,而非局限於單個業務之中。在商品圖譜的五層體系中,標准商品、抽象商品、品類體系都是與業務解耦的,圍繞着客觀商品所建立的,包括圍繞這些層級建立的各維度數據也均是刻畫了商品領域的客觀知識。在應用於各個業務當中時,我們將客觀的圖譜知識向上關聯至業務前台類目,向下關聯至業務商品SPU/SKU,則可以完成各個業務數據的接入,實現各個業務數據和客觀知識之間的聯通,提供更加全面的跨業務的全景數據視角。利用這樣的數據,在用戶方面我們可以更加全面的建模、分析用戶對於業務、品類的偏好,對於價格、品質等的敏感程度,在商品方面我們可以更准確的建模各品類的復購周期、地域/季節/節日偏好等。

商品圖譜建設的挑戰

商品知識圖譜的構建的挑戰主要來源於以下三個方面:

  1. 信息來源質量低:商品本身所具有的信息比較匱乏,往往以標題和圖片為主。尤其在美團閃購這樣LBS的電商場景下,商戶需要上傳大量的商品數據,對於商品信息的錄入存在很多信息不完整的情況。在標題和圖片之外,商品詳情雖然也蘊含着大量的知識信息,但是其質量往往參差不齊,並且結構各異,從中進行知識挖掘難度極高。
  2. 數據維度多:在商品領域有眾多的數據維度需要進行建設。以商品屬性部分為例,我們不僅需要建設通用屬性,諸如品牌、規格、包裝、口味等維度,同時還要覆蓋各個品類/類目下特定關注的屬性維度,諸如脂肪含量、是否含糖、電池容量等,整體會涉及到上百維的屬性維度。因此,數據建設的效率問題也是一大挑戰。
  3. 依賴常識/專業知識:人們在日常生活中因為有很豐富的常識知識積累,可以通過很簡短的描述獲取其背后隱藏的商品信息,例如在看到“樂事黃瓜”這樣一個商品的時候知道其實是樂事黃瓜味的薯片、看到“唐僧肉”的時候知道其實這不是一種肉類而是一種零食。因此,我們也需要探索結合常識知識的語義理解方法。同時,在醫葯、個護等領域中,圖譜的建設需要依賴較強的專業知識,例如疾病和葯品之間的關系,並且此類關系對於准確度的要求極高,需要做到所有知識都准確無誤,因此也需要較好的專家和算法相結合的方式來進行高效的圖譜構建。

商品圖譜建設

在了解了圖譜建設的目標和挑戰后,接下來我們將介紹商品圖譜數據建設的具體方案。

層級體系建設

品類體系建設本質品類描述了商品本質所屬的最細類別,它聚合了一類商品,承載了用戶最終的消費需求,如“高鈣牛奶”、“牛肉干”等。本質品類與類目也是有一定的區別,類目是若干品類的集合,它是抽象后的品類概念,不能夠明確到具體的某類商品品類上,如“乳制品”、“水果”等。品類打標:對商品圖譜的構建來說,關鍵的一步便是建立起商品和品類之間的關聯,即對商品打上品類標簽。通過商品和品類之間的關聯,我們可以建立起商品庫中的商品與用戶需求之間的關聯,進而將具體的商品展示到用戶面前。下面簡單介紹下品類打標方法:

  1. 品類詞表構建:品類打標首先需要構建一個初步的商品品類詞表。首先,我們通過對美團的各個電商業務的商品庫、搜索日志、商戶標簽等數據源進行分詞、NER(參見文章《美團搜索中NER技術的探索與實踐》)、新詞發現等操作,獲得初步的商品候選詞。然后,通過標注少量的樣本進行二分類模型的訓練(判斷一個詞是否是品類)。此外,我們通過結合主動學習的方法,從預測的結果中挑選出難以區分的樣本,進行再次標注,繼續迭代模型,直到模型收斂。
  2. 品類打標:首先,我們通過對商品標題進行命名實體識別,並結合上一步中的品類詞表來獲取商品中的候選品類,如識別“蒙牛脫脂牛奶 500ml”中的“脫脂牛奶”、“牛奶”等。然后,在獲得了商品以及對應的品類之后,我們利用監督數據訓練品類打標的二分類模型,輸入商品的SPU_ID和候選品類TAG構成的Pair,即<SPU_ID,TAG>,對它進行是否匹配的預測。具體的,我們一方面利用結合業務中豐富的半結構化語料構建圍繞標簽詞的統計特征,另一方面利用命名實體識別、基於BERT的語義匹配等模型產出高階相關性特征,在此基礎上,我們將上述特征輸入到終判模型中進行模型訓練。
  3. 品類標簽后處理:在這一步中,我們對模型打上的品類進行后處理的一些策略,如基於圖片相關性、結合商品標題命名實體識別結果等的品類清洗策略。

通過上述的三個步驟,我們便可以建立起商品與品類之間的聯系。品類體系:品類體系由品類和品類間關系構成。常見的品類關系包括同義詞和上下位等。在構建品類體系的過程中,常用的以下幾種方法來進行關系的補全。我們主要使用下面的一些方法:

  1. 基於規則的品類關系挖掘。在百科等通用語料數據中,有些品類具有固定模式的描述,如“玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴蓮是著名熱帶水果之一”,因此,可以使用規則從中提取同義詞和上下位。
  2. 基於分類的品類關系挖掘。類似於上文中提到的品類打標方法,我們將同義詞和上下位構建為<TAG, TAG>的樣本,通過在商品庫、搜索日志、百科數據、UGC中挖掘的統計特征以及基於Sentence-BERT得到的語義特征,使用二分類模型進行品類關系是否成立的判斷。對於訓練得到的分類模型,我們同樣通過主動學習的方式,選出結果中的難分樣本,進行二次標注,進而不斷迭代數據,提高模型性能。
  3. 基於圖的品類關系推理。在獲得了初步的同義詞、上下位關系之后,我們使用已有的這些關系構建網絡,使用GAE、VGAE等方法對網絡進行鏈路預測,從而進行圖譜邊關系的補全。

圖5 商品圖譜品類體系的構建標准/抽象商品標准商品是描述商品本身客觀事實的顆粒度,和銷售渠道和商戶無關,而商品條形碼是標准商品這層的客觀依據。標品關聯即將同屬於某個商品條形碼的業務SKU/SPU,都正確關聯到該商品條形碼上,從而在標准商品層級上建模相應的客觀知識,例如標准商品對應的品牌、口味和包裝等屬性。下面通過一個案例來說明標品關聯的具體任務和方案。案例:下圖是一個公牛三米插線板的標准商品。商家錄入信息的時候,會把商品直接關聯到商品條碼上。通過商戶錄入數據完成了一部分的標品關聯,但這部分比例比較少,且存在大量的鏈接缺失,鏈接錯誤的問題。另外,不同的商家對於同樣的標品,商品的標題的描述是千奇百怪的。我們的目標是補充缺失的鏈接,將商品關聯到正確的標品上。

圖6 商品圖譜標品關聯任務
針對標品關聯任務,我們構建了商品領域的同義詞判別模型:通過遠監督的方式利用商戶已經提供的少量有關聯的數據,作為已有的知識圖譜構造遠監督的訓練樣本。在模型中,正例是置信度比較高的標品碼;負例是原始數據中商品名或者圖像類似但不屬於同一標品的SPU。構造准確率比較高的訓練樣本之后,通過BERT模型進行同義詞模型訓練。最后,通過模型自主去噪的方式,使得最終的准確率能夠達到99%以上。總體能做到品牌,規格,包裝等維度敏感。

圖7 商品圖譜標品關聯方法
抽象商品是用戶認知的層面,作為用戶所評論的對象,這一層對用戶偏好建模更加有效。同時,在決策信息的展示上,抽象商品粒度也更符合用戶認知。例如下圖所示冰淇淋的排行榜中,羅列了用戶認知中抽象商品對應的SKU,然后對應展示不同抽象商品的特點、推薦理由等。抽象商品層整體的構建方式,和標准商品層比較類似,采用標品關聯的模型流程,並在數據構造部分進行規則上的調整。

圖8 商品圖譜抽象商品聚合

屬性維度建設

對一個商品的全面理解,需要涵蓋各個屬性維度。例如“樂事黃瓜味薯片”,需要挖掘它對應的品牌、品類、口味、包裝規格、標簽、產地以及用戶評論特色等屬性,才能在商品搜索、推薦等場景中精准觸達用戶。商品屬性挖掘的源數據主要包含商品標題、商品圖片和半結構化數據三個維度。

圖9 商品圖譜屬性建設商品標題包含了對於商品最重要的信息維度,同時,商品標題解析模型可以應用在查詢理解中,對用戶快速深入理解拆分,為下游的召回排序也能提供高階特征。因此,這里我們着重介紹一下利用商品標題進行屬性抽取的方法。商品標題解析整體可以建模成文本序列標注的任務。例如,對於商品標題“樂事黃瓜薯片”,目標是理解標題文本序列中各個成分,如樂事對應品牌,黃瓜對應口味,薯片是品類,因此我們使用命名實體識別(NER)模型進行商品標題解析。然而商品標題解析存在着三大挑戰:(1)上下文信息少;(2)依賴常識知識;(3)標注數據通常有較多的噪音。為了解決前兩個挑戰,我們首先嘗試在模型中引入了圖譜信息,主要包含以下三個維度:

  • 節點信息:將圖譜實體作為詞典,以Soft-Lexicon方式接入,以此來緩解NER的邊界切分錯誤問題。
  • 關聯信息:商品標題解析依賴常識知識,例如在缺乏常識的情況下,僅從標題“樂事黃瓜薯片”中,我們無法確認“黃瓜”是商品品類還是口味屬性。因此,我們引入知識圖譜的關聯數據緩解了常識知識缺失的問題:在知識圖譜中,樂事和薯片之間存在着“品牌-售賣-品類”的關聯關系,但是樂事跟黃瓜之間則沒有直接的關系,因此可以利用圖結構來緩解NER模型常識知識缺少的問題。具體來說,我們利用Graph Embedding的技術對圖譜進行的嵌入表征,利用圖譜的圖結構信息對圖譜中的單字,詞進行表示,然后將包含了圖譜結構信息的嵌入表示和文本語義的表征進行拼接融合,再接入到NER模型之中,使得模型能夠既考慮到語義,也考慮到常識知識的信息。
  • 節點類型信息:同一個詞可以代表不同的屬性,比如“黃瓜”既可以作為品類又可以作為屬性。因此,對圖譜進行Graph Embedding建模的時候,我們根據不同的類型對實體節點進行拆分。在將圖譜節點表征接入NER模型中時,再利用注意力機制根據上下文來選擇更符合語義的實體類型對應的表征 ,緩解不同類型下詞語含義不同的問題,實現不同類型實體的融合。

圖10 商品圖譜標題解析
接下來我們探討如何緩解標注噪音的問題。在標注過程中,少標漏標或錯標的問題無法避免,尤其像在商品標題NER這種標注比較復雜的問題上,尤為顯著。對於標注數據中的噪音問題,采用以下方式對噪音標注優化:不再采取原先非0即1的Hard的訓練方式,而是采用基於置信度數據的Soft訓練方式,然后再通過Bootstrapping的方式迭代交叉驗證,然后根據當前的訓練集的置信度進行調整。我們通過實驗驗證,使用Soft訓練+Bootstrapping多輪迭代的方式,在噪聲比例比較大的數據集上,模型效果得到了明顯提升。具體的方法可參見我們在NLPCC 2020比賽中的論文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

圖11 基於噪音標注的NER優化

效率提升

知識圖譜的構建往往是針對於各個領域維度的數據單獨制定的挖掘方式。這種挖掘方式重人工,比較低效,針對每個不同的領域、每個不同的數據維度,我們都需要定制化的去建設任務相關的特征及標注數據。在商品場景下,挖掘的維度眾多,因此效率方面的提高也是至關重要的。我們首先將知識挖掘任務建模為三類分類任務,包括節點建模、關系建模以及節點關聯。在整個模型的訓練過程中,最需要進行效率優化的其實就是上述提到的兩個步驟:(1)針對任務的特征提取;(2)針對任務的數據標注。

 

 圖12 知識挖掘任務建模

針對特征提取部分,我們摒棄了針對不同挖掘任務做定制化特征挖掘的方式,而是嘗試將特征和任務解耦,構建跨任務通用的圖譜挖掘特征體系,利用海量的特征庫來對目標的節點/關系/關聯進行表征,並利用監督訓練數據來進行特征的組合和選擇。具體的,我們構建的圖譜特征體系主要由四個類型的特征組構成:

  1. 規則模板型特征主要是利用人工先驗知識,融合規則模型能力。
  2. 統計分布型特征,可以充分利用各類語料,基於不同語料不同層級維度進行統計。
  3. 句法分析型特征則是利用NLP領域的模型能力,引入分詞、詞性、句法等維度特征。
  4. 嵌入表示型特征,則是利用高階模型能力,引入BERT等語義理解模型的能力。

圖13 知識挖掘特征體系
針對數據標注部分,我們主要從三個角度來提升效率。

  1. 通過半監督學習,充分的利用未標注的數據進行預訓練。
  2. 通過主動學習技術,選擇對於模型來說能夠提供最多信息增益的樣本進行標注。
  3. 利用遠程監督方法,通過已有的知識構造遠監督樣本進行模型訓練,盡可能的發揮出已有知識的價值。

人機結合-專業圖譜建設

當前醫葯健康行業結構性正在發生變化,消費者更加傾向於使用在線醫療解決方案和葯品配送服務,因此醫葯業務也逐漸成為了美團的重要業務之一。相比於普通商品知識圖譜的建設,葯品領域知識具有以下兩個特點:(1)具有極強的專業性,需要有相關背景知識才能判斷相應的屬性維度,例如葯品的適用症狀等。(2)准確度要求極高,對於強專業性知識不允許出錯,否則更容易導致嚴重后果。因此我們采用將智能模型和專家知識結合的方式來構建葯品知識圖譜。葯品圖譜中的知識可以分為弱專業知識和強專業知識兩類,弱專業知識即一般人能夠較容易獲取和理解的知識,例如葯品的使用方法、適用人群等;而強專業知識則是需要具有專業背景的人才能夠判斷的知識,例如葯品的主治疾病、適應症狀等。由於這兩類數據對專家的依賴程度不同,因此我們分別采取不同的挖掘鏈路:

  • 弱專業知識:對於葯品圖譜的弱專業知識挖掘,我們從說明書、百科知識等數據源中提取出相應的信息,並結合通過專家知識沉淀出來的規則策略,借助通用語義模型從中提取相應的知識,並通過專家的批量抽檢,完成數據的建設。
  • 強專業知識:對於葯品圖譜的強專業知識挖掘,為了確保相關知識百分百准確,我們通過模型提取出葯品相關屬性維度的候選后,將這些候選知識給到專家進行全量質檢。在這里,我們主要是通過算法的能力,盡可能減少專業葯師在基礎數據層面上的精力花費,提高專家從半結構化語料中提取專業知識的效率。

在葯品這類專業性強的領域,專業知識的表述和用戶習慣往往存在差異。因此我們除了挖掘強弱專業知識外,還需要填補專業知識和用戶之間的差異,才能將葯品圖譜更好的與下游應用結合。為此,我們從用戶行為日志以及領域日常對話等數據源中,挖掘了疾病、症狀和功效的別名數據,以及葯品通用名的俗稱數據,來打通用戶習慣和專業表述之間的通路。

 

 圖14 人機結合的專業知識挖掘

商品圖譜的落地應用

自從谷歌將知識圖譜應用於搜索引擎,並顯著提升了搜索質量與用戶體驗,知識圖譜在各垂直領域場景都扮演起了重要的角色。在美團商品領域中,我們也將商品圖譜有效的應用在圍繞商品業務的搜索、推薦、商家端、用戶端等多個下游場景當中,接下來我們舉幾個典型的案例進行介紹。

結構化召回

商品圖譜的數據,對於商品的理解很有幫助。例如,在商品搜索中,如用戶在搜索頭疼腰疼時,通過結構化的知識圖譜,才能知道什么葯品是有止疼功效的;用戶在搜索可愛多草莓、黃瓜薯片時,需要依賴圖譜的常識知識來理解用戶真正需求是冰淇淋和薯片,而不是草莓和黃瓜。

圖15 基於圖譜的結構化召回

排序模型泛化性

圖譜的類目信息、品類信息、屬性信息,一方面可以作為比較強有力的相關性的判斷方法和干預手段,另一方面可以提供不同粗細粒度的商品聚合能力,作為泛化性特征提供到排序模型,能有效地提升排序模型的泛化能力,對於用戶行為尤為稀疏的商品領域來說則具有着更高的價值。具體的特征使用方式則包括:

  1. 通過各顆粒度進行商品聚合,以ID化特征接入排序模型。
  2. 在各顆粒度聚合后進行統計特征的建設。
  3. 通過圖嵌入表示的方式,將商品的高維向量表示和排序模型結合。

圖16 基於圖譜的排序優化

多模態圖譜嵌入

現有的研究工作已經在多個領域中證明了,將知識圖譜的數據進行嵌入表示,以高維向量表示的方式和排序模型結合,可以有效地通過引入外部知識達到緩解排序/推薦場景中數據稀疏以及冷啟動問題的效果。然而,傳統的圖譜嵌入的工作往往忽視了知識圖譜中的多模態信息,例如商品領域中我們有商品的圖片、商品的標題、商家的介紹等非簡單的圖譜節點型的知識,這些信息的引入也可以進一步提升圖譜嵌入對推薦/排序的信息增益。

圖17 基於多模態圖譜的推薦-背景現有的圖譜嵌入方法在應用到多模態圖譜表征的時候會存在一些問題,因為在多模態場景下,圖譜中邊的含義不再是單純的語義推理關系,而是存在多模態的信息補充的關系,因此我們也針對多模態圖譜的特點,提出了MKG Entity Encoder和MKG Attention Layer來更好的建模多模態知識圖譜,並將其表征有效的接入至推薦/排序模型中,具體方法可以參考我們在CIKM 2020發表了的論文《Multi-Modal Knowledge Graphs for Recommender Systems》。

圖18 基於圖譜的排序優化-模型

用戶/商家端優化

商品圖譜在用戶端提供顯式化的可解釋性信息,輔助用戶進行決策。具體的呈現形式包括篩選項、特色標簽、榜單、推薦理由等。篩選項的維度受當前查詢詞對應品類下用戶關注的屬性類別決定。例如,當用戶搜索查詢詞為薯片時,用戶通常關注的是它的口味、包裝、凈含量等,我們將會根據供給數據在這些維度下的枚舉值展示篩選項。商品的特色標簽則來源於標題、商品詳情頁信息與評論數據的提取,以簡潔明了的結構化數據展示商品特色。商品的推薦理由通過評論抽取與文本生成兩種渠道獲得,與查詢詞聯動,以用戶視角給出商品值得買的原因,而榜單數據則更為客觀,以銷量等真實數據,反應商品品質。在商家端,即商家發布側,商品圖譜則提供了基於商品標題的實時預測能力,幫助商家進行類目的掛載、屬性信息的完善。例如,商家填寫標題“德國進口德亞脫脂純牛奶12盒”后,商品圖譜提供的在線類目預測服務可將其掛載到“食品飲料-乳制品-純牛奶”類目,並通過實體識別服務,得到商品的“產地-德國”,“是否進口-進口”,“品牌-德亞”,“脂肪含量-脫脂”,“規格-12盒”的屬性信息,預測完成后,由商家確認發布,降低商家對商品信息的維護成本,並提升發布商品的信息質量。

作者簡介

雪智,鳳嬌,姿雯,匡俊,林森,武威等,均來自美團平台搜索與NLP部NLP中心。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM