阿里小蜜數字人多模態交互實踐

本文轉載自查看原文 2021-09-18 16:29 219 人工智能

01-雙十一的變化以及小蜜數字人的演變
02-從問答到直播，長劇本創作是首要挑戰
03-從問答到直播，關注點變化引發的問答新挑戰
04-總結

轉載：https://zhuanlan.zhihu.com/p/410582088

導讀：
直播作為一種新的電商形態，
電商直播化與直播電商化的現象已經逐漸普遍。

本次分享主要圍繞多模態與人機交互技術在電商直播中的應用。

小蜜數字人從去年雙11
作為集團十大黑科技
正式公開亮相，
該產品從以前的窗口式問答，
升級為直播間的多維度互動，
這背后面臨的挑戰
驅動着小蜜的問答技術
有了新的發展，
這也是我今天主要分享的內容。

01-雙十一的變化以及小蜜數字人的演變

2018年

阿里小蜜智能服務占比：98%
相當於10萬名人工客服的工作量

店小蜜對話輪次3.5億
能力等同於58.6萬名人工客服

2020年

熱線智能客服外呼規模1千萬
支持音畫同步多模態交互

全球消費者覆蓋數8億
220個國家/地區，18種語言

提到雙十一，
我們先來快速看一下雙11的變化以及背后小蜜的演進。

我們知道去年雙11它最大的變化來自於
一天變成了兩個時段。

同時，
直播帶貨的GMV(Gross Merchandise Volume，成交總額)
在整個電商場景里也占到了一個更大的比重。

在服務這塊同樣有了新變化，
從18年開始，
小蜜在平台的服務，
以及面向商家的服務支持上面，
已經達到了相當的一個規模。

到了最近的雙11，
我們已經可以把這種問答或者說服務的能力
擴展到像熱線等不同的渠道，
或者像海外的更多國家和地區，
目前是有18種語言，
200多個國家和地區。

同時小蜜也實現了交互形態的新升級，
去年阿里CTO魯肅
發布了阿里集團的十大雙11黑科技。

數字人就是作為其中之一。

在具體展開技術細節之前，
先介紹一下我們為什么要做這件事兒。

1-為什么要做數字人？

真人直播
- 頭部流量集中
- 門檻高、流動大
- 難以長時間開播
- 形式單一有限制
- 容易出錯放不開
虛擬主播
- 助力差異化競爭
- 品效合一的IP打造
- 全時段主播/輔播
- 1vN/1v1互動多樣
- 發揮穩定形態豐富

直播作為一種新的電商形態，
電商直播化與直播電商化的現象已經逐漸普遍。

但在電商的實際市場上，
人們會更加地關注李佳琪這樣的頭部大V。

而真正的商家在直播過程中面臨很多困難。

比如說某個服飾國內top大品牌，
它在直播興起以后，
在杭州這邊開了一個分公司，
為什么？
是因為他們總部所在地很難去招到相關的一些直播人才，
難以去滿足或者說符合他們現在今天直播的品質的要求。

但是另一方面，
商家也會發現，
其實他們很難去給到
特別大的一些支持或者說資源去支持主播，
比如說打造他們自己的一些人設，
因為等主播有一定成長以后，
它的流失也會比較大。

針對
符合要求的直播人才難培養、
主播培養成熟需要的成本大
且成熟主播易流失的問題。

這個時候我們引入小蜜數字人，
一方面可以降低商家開播的成本；
一方面數字人的形象可以與商家的品牌形象更好地結合達到品效合一。

例如像海爾兄弟，三只松鼠。

我們可以用數字人的形式
獲得更加鮮活品牌形象的具象化；

此外像二次元的形象
可以作為新的媒介
觸達年輕消費人群
提供為商品提供差異化競爭。

2-雙11十大黑科技 — 圍繞虛擬主播的交互新形態

這種新形態體現在
小蜜數字人具有
貨品展現、人物驅動以及場景交互的能力。

具體包括了智能播報劇本的創作；
與劇本內容相關的呈現和演示，
包括商品的呈現，
以及數字人在聲音上的情緒表達
和
動作肢體上的驅動演繹等；

另外在實時互動的場景中，
我們還需要使數字人具有
做相關的問答以及暖場游戲的能力。

3-從問答到直播，面臨的新挑戰

問答主要以用戶問題
和知識庫
或者文檔庫內容的匹配為主，
而直播需要將匹配進化為內容的創作。

內容創作會涉及
文字、圖片、視頻
等多種素材，
多模態處理能力必不可少。

用戶在直播間的個性化互動支持。

主播在直播間中做1 v N互動，
也可以通過端上卡片做1v1的推薦互動，
如何融合千人千面的個性化推薦
和數字人的動態行為決策
是一個我們正在探索的課題。

4-從問答到直播的技術演進

從最開始基於知識庫的問答
(FAQ的匹配，NLU與意圖路由，任務型對話）
我們進一步引入了
非結構化內容問答
（例如面向文檔的閱讀理解和面向詳情頁的視覺問答），
再進一步演進到多模態內容合成：
圍繞着文本生成能力和知識圖譜構建，
將不同素材進行有機的組合和表現，
包括
故事線的編排，
行為的驅動，
情感的計算，
直播間氛圍感知
及實時推薦等等。

5-從虛擬主播知識大圖

接下來會圍繞數字人交互分兩部分介紹：劇本構建和互動呈現。

02-從問答到直播，長劇本創作是首要挑戰

在這里我舉例一些播報比較好的真人話術
和他們相對應賣點。

可以看到一般好的真人主播會針對特定的選品，
挑選專業性的爆點性的內容，
它通常都是一兩個點，
但是也會注重用戶
在真實使用場景的這種連接和共鳴，
達到種草的效果。

1-學術定義

① Text/Story Generation

對於劇本生成，
在學術上類似的任務是Text / Story Generation。

目前工業上常用的方法是Data2Text Generation。

這篇文章是
清華與淘寶推薦理由生成
一起合作的工作，
可以看到這里邊利用到了很多的KV信息，
以及一個兩階段的生成
來實現最終的短文本的生成關系。

他主要依賴於輸入的數據
並且專注於短文本的生成。

還有一些方法
更加偏向於開放式的Story Generation。

比如說GPT3，
以及達摩院的PLUG模型等等，
它們可以根據一兩個線索
或者一個文章的開頭
來去補全后續的內容。

但考慮這些模型的可控性比較差，
目前使用在直播場景落地仍然具有挑戰性。

② Story Telling/Story Visualization

在我們將視覺的呈現考慮進來以后，
它就變成了一種多模態任務。

例如微軟提出的
基於視覺素材
story telling的工作。

任務要求是
給定一些具有差異性的圖片，
圍繞這些圖片的差異性
生成一個簡短的介紹。

最近的一些工作
會嘗試融合一些圖像的Scene Graph
來保證整個生成的邏輯性和順暢性。

還有一種從文本出發，
做Story Visualizatioin。

做的效果比較好工作有
微軟的StoryGAN，
它可以根據相關文本內容，
生成類似於卡通動畫的場景。

文本可視化目前
還處在偏創新探索的階段。

2-虛擬主播劇本構建流程

縱軸來看，
我們對劇本預先設定了框架，
框架一部分來自於業務的定制性，
另一部分來自於我們對用戶的關注點挖掘，
比如檢索日志或歷史點擊內容，
或者說從真人主播歷史中挖掘好的腳本套路，
然后來形成一體化的框架。

在這個框架之上，
我們會去沿着圖中橫軸的步驟去構建整體劇本，
整體成型的劇本里邊涉及到多種素材來源。

既包括了關鍵詞， pv屬性等結構化的數據，
也包括了一些非結構化的
比如文本、圖片、視頻等內容。

最終，
這些內容在構建過程中通過匹配的方式，
或者在素材來源追溯的方式得到最終的呈現。

3-素材的挑戰

① 多來源知識挖掘與對齊

第一步要解決的是素材從哪里來的問題。

在我們的業務場景中，
更多是要用輕量高效的方法
快速實現素材的構建。

雖然淘系或者電商域
已經積累了大量的這種素材，
但它的形態非常豐富，
關鍵詞、三元組、短句、單句到整個篇章，
以及面臨着多渠道的一些來源，
比如說
用戶的、
有UGC的，
有商家PGC的，
還有平台積累的一些比如說
知識圖譜，
商品圖譜這樣的信息，
它會帶來極大的知識質量控制挑戰。

在這里面的話，
我們基於現有的淘系商品圖譜
做了進一步的擴展。

在右邊這個例子中
可以看到
我們對於歷史文本進行短語挖掘
和實體的識別與掛載，
會從商品屬性擴展到賣點，
例如寶寶餐具，
因為它的材質是食品級硅膠，
這種食品級硅膠它帶來的賣點
就包括了可以支持高溫的消毒，
更加安全，
不含BPA等信息。

其實不只是賣點，
我們會把用戶使用場景相關的痛點，
同樣關聯在圖譜中。

這些關系
最終會作為基礎的框架
來去組織素材，
達到劇本的整體邏輯性。

② 詳情頁結構化改寫

但是對於一些新上架的商品，
它基本上沒有歷史數據，
所以我們也引入了這些商品的詳情頁
作為冷啟動來源。

我們處理的思路和Layout LM的思路類似，
因為如果直接做image caption，結果不可控；
但是如果拿OCR挖掘，會由於布局的關系會顯得比較雜亂。

所以我們會結合一些
相關的object或者layout embedding，
然后來實現對句子相對位置的感知
和最終改寫完整性的保障。

比如說
我們針對這張抽取的相關的片段，
形成一句賣點的介紹。

在最終的業務數據集上也有明顯提升。

同時在素材方面還有一些比如像
短文本生成，
模板自動生成，
這里就不再展開了。

4-結構的挑戰 — 引入知識圖譜增強邏輯性

但是我們只有素材的話，
其實有一個挑戰在於
我們沒有辦法以一個很好的邏輯去展開。

這里舉一個具體的例子，
就是在我們做的第一版的劇本里邊，
我們的數字人
可能更多的去圍繞着商品的成分和功效來去介紹，
就聽起來的觀感就有點
像王婆賣瓜，自賣自誇，
這樣它很難去與用戶真正產生一個連接，
或者說讓他們有一種真實感。

所以說在這個例子里，
我們會先從
近期天氣炎熱比較干燥，
或者說熬夜會遇到的皮膚衰老角質化問題，
從真正用戶遇到的痛點問題，
以及它對應的生活場景出發，
再回歸到我們具體介紹的商品屬性，
或者說賣點的介紹上來。

在這個過程中，
我們會引入到一個場景化的知識圖譜，
這個也是我們在之前的
基於成分賣點的基礎上
做了進一步擴充的，
目前主要覆蓋了美妝食品等熱點類目。

在劇本的生成過程中，
我們最終會分成兩步。

第一步，將虛擬人講解的大綱基於圖譜做生成。
第二步，圍繞着大綱展開，填充具體的內容形成劇本的血肉。

5-銜接的挑戰 — 流暢表述

有了結構以后，
他可以在宏觀上保證我們順暢的去講述這件事，
但是在微觀上怎么去流暢的表述呢？

例如
我們講棉布的親膚感、透氣性、衛生性的賣點來說，
會面臨着很多冗余的素材。

圍繞着預訓練通過預構建數據集，
比如說句子的順序的打亂；
丟棄和重復樣本的過濾等等，
這樣可以使大規模訓練的模型具有一定的重點抽取能力，
類似摘要的解法。

但如果用純生成的方法，
在遇到線上百萬千萬甚至億級的商品規模時，
它的延時性就會達不到要求。

所以我們在這里
又進一步引入了一種基於塊拷貝/block copy方法，
在里面比較好的內容，
我們會以成句或者說短句集的形式直接拷貝過來。

在這個過程中，
相比較原始的一些pipeline的方法，
或者說是一些比較簡單的
像BART這樣的基於預訓練模型的生成方法的話，
無論是在數值上
比如BLEU、ROUGE的指標上，
還是在人工評分上都有更好的效果。

具體可以看一下case。

最終的話，
我們會把棉布里邊相關的
一種吸濕性吸汗性親膚感等等特征
抽取出來，
並且根據這里邊的前后的語義邏輯，
形成最終的整體性的介紹。

03-從問答到直播，關注點變化引發的問答新挑戰

下面我們主要介紹虛擬人互動方面的技術。

作為比較，
列舉出某一個直播間的對話分布，
可以看到
相比較小蜜之前做的偏售中后的場景來說，
用戶直播間的問題更加值得關注。

比如說
有活動優惠或者商品問答的一些產品里，
它面臨着更多的一些
非標准的，答案會實時變化，
並且
問題的跨度比較大
以及
問題長尾
等現象。

針對這個問題，
我們基於之前的FAQ的知識庫
進一步的引入
比如說
像活動的這種文檔操作的說明書，
還有一些百科內容，
去構建起一種
基於閱讀理解的問答能力。

1-通過閱讀理解，降低人工配置成本

剛才也有同學提到了關於MRC的一些任務，
在學術的數據集上，
比如說高達這樣的，
它很多都是一些span，
當然到后面
我們也可以看到
基於多跳推理和長文本，
甚至說
帶有生成式答案的閱讀理解的過程。

在我們的工作中
更多會是從
業務實用的角度去考慮這件事，
比如說
我們會結合不同的一些任務，
像
Retrieval & Ranking、
基礎的預訓練來去做整個model，
通過Multi-Task Learning
去共享相關的數據和不同的訓練階段
來獲得整體的提升。

2-從答到問 — 通過QAMaker輔助知識構建

但是在上線以后
也會發現一些問題，
如果只通過MRC做內容抽取的話，
它的業務可控性
其實不如FAQ這樣靈活，
比如說FAQ我可以去加一些相似問法或者干預手段。

同時它領域遷移的成本也比較高，
但另一方面的話，
我們又面臨着大量的
不管是我們域內還是域外的客戶，
其業務都涉及到大量非結構化文檔，
所以在這里的話
我們就進一步引入了
MRC的對偶能力Learn to Ask,
構建了QAmaker。

關於QAmaker
我們今年在WWW上被接收了一篇文章，
這也是業界第一個
把這兩個能力
去做了一個one-stop聯合式的方案。

它的思路很簡單，
但效果非常不錯。

主要方法是
MRC的抽取和生成做了Joint Training，
同時對答案span預測的過程
和
問題的過程
做進一步的attention，
這就可以
使模型在問和答上相互指導。

它的好處就在於
我們相比較這種兩階段式的，
比如說先抽取再生成問題，
或者先生成問題再抽取來說，
它的生成問題和答案的抽取可以是並行，
並且是能夠相互一致性，
相比兩階段有更好的一個效果。

具體的話可大家可以去看我們的文章。

3-引入詳情頁內容支持輕量化問答

讓我們把目光回到詳情頁，
因為詳情頁還是一個
對於冷啟動商品
或者說
長尾問題
很好的解決內容來源。

所以說
在這里
我們也引入了VQA視覺問答任務，
首先把詳情頁
去做了一定的采取裁切和匹配，
根據用戶的問題
會返回相關的圖片，
並且高亮其中的區域，
同時也會生成一個簡短的文字內容回復。

4-多模態閱讀理解

① 支持主觀、長尾問題回復

在這里面的話，
如果單純利用OCR的話，
其實它有很多問題是難以解決的。

比如說有一些偏向於主觀類的，
它可能更需要去理解這個圖片。

有一些在吊牌圖和同樣的視覺信息都包含的情況下，
我們更希望去展示一種視覺相關的內容，
更不用說可能很多圖片其實是沒有文字標注的。

② 多模態閱讀理解挑戰

除了對圖片和文字的理解外，
對整個詳情圖做細粒度語義切分同樣很有挑戰，
怎么去選取帶有語義一致性的，
但是顆粒度又比較細適合做回復的，
也需要通過多模態技術解決。

③ 支持視覺 - 文字的匹配與對齊

在這個過程中的話，
我們利用了多模態的預訓練技術。

最終的效果可以看到
一些主觀類的一些問題，
然后還有
一些使用步驟的問題，
我們都可以在直播間或者問答的時候去做一個呈現。

這里是
一些視覺呈現和播報文字對齊配合
的示例。

5-多模態訓練如火如荼

由於預訓練
這里前面的老師已經做了非常詳細的介紹，
我就不再展開了，
包括了
單流的模型，
雙流的模型……

這里我寫的比較是
之前比較早期的一些工作，
包括近期
我們可以看到有UNIMO，
還有像視頻的MMT等等的，
都會有很多這樣的工作。

6-小蜜多模態算法

① MMTK（MultiModel Toolkit）

我們也是在這個基礎上，
針對詳情頁這種形態，
引入了額外的任務。

比如說詳情頁這里邊的話，
我有一張大的一張圖片，
我把它通過一些視覺的方式切分開以后，
這些小圖和大圖之間的關系，
天然就具有一定的語義包含的信息，
通過這樣來去學習到
他們局部的文字和圖像之間的語義關聯。

我們也在公開的VQA challenge上連續幾年取得了Top成績，
同時在業務效果上
相對來說比之前單模態拿到了更好的結果。

但是這種直接
基於詳情頁圖片的這種大小關系，
其實是一個很弱的對齊，
包括我們也看到了，
家在整個領域發展過程中，
也在不斷嘗試利用到一些細度match的信息，
包括OSCAR它可以用一些圖像的scene graph，
然后像ERNIE-VIL，
然后之前應該在早期
也有一個針對文字的這樣的信息的融入。

② ROSITA：細粒度跨模態預訓練

我們進一步提出了ROSITA模型，
最近剛剛被ACMMM會議所接收。

這里面、有一個很直接的motivation，
我們會將這個圖像里邊的scene graph的物體
和文字里相關的一些實體
做更精細粒度的對齊。

在具體的實現上面，
我們會將同模態中
出現在scene graph的實體，
與其有直接連接
並且
連接關系比較強的部分元素
以更高的概率去做作MLP任務，
因為相對來說
它們之間容易導致信息泄露。

同時，
在跨模態之間做對齊的元素，
我們會降低它們同時被mask的概率，
因為這部分
其實可以提供很好的模態之間的互補信息。

通過這樣的方法，
進一步改進了mask language model里邊的
token prediction的任務效果，
然后在不侵入模型結構的情況下
去進一步提升它細粒度的一個學習能力。

可以看到右邊的話，
我們在對比這樣的基線的UNITER模型時，
我們在不同的物體和token之間的定位都有更好的效果。

比如對於children這個詞，
我們會進一步的把圖片里邊的兩個小孩
都會高亮出來
然后再識別出來。

包括在child和cat這樣的
重疊視覺區域里邊，
模型會將文字里邊
相關詞
賦予更高的attention權重。

感興趣的話大家可以去，
我們近期應該會公開相關的論文和代碼。

這部分的話也是在
包括對比OSCAR、VILLA等一些模型，
也拿到了多模態多種數據集的SOTA效果。

7 - 從圖像到直播

① LiveQA的演進

但是其實對於直播間整個形態的話，
它不只有圖片，
也不只是視頻，
進一步的
也可以結合直播流做一些互動。

我們開創了Live QA的工作，
在這里我快速提一下它的演進過程，
對於視頻會有Grounding的任務，
比如說
可以檢測里邊的物體、動作、時間等，
是比較經典的視頻任務，
再進一步的話，
目前也有VideoQA的任務，
會針對一些具體的問題去截取相關的視頻clip，
或者說基於給到的文字，回復相關的音視頻片段。

那么在直播這個場景，
LiveQA的差異點
一個是在於音視頻流往往都是實時的，
相比離線的VideoQA對於食品表示和匹配的延遲
會有很高要求。

另外直播間里
因為涉及到用戶的互動行為，
還存在點擊、評論等異構化數據，
怎么根據用戶的問題來
去快速跳轉到
之前曾經播報過的某一個時間段，
也同樣需要融合這些異構數據。

所以我們今天定義的Live QA任務，
目前它會作為一個獨特於靜態視頻的形態，
會有新的挑戰需要去解決，
未來或許也會結合這種Live的這種形式
來去做streaming base預訓練的工作。

② LiveQA處理流程

目前為了更好的落地，
我們把它分解成了一整個鏈路，
在視頻的表示方面
融合了ASR/音頻
和視頻中檢測出實體等
結構化信息與統一的高維表示。

因為這個場景相對來說是強商品驅動的，
也會涉及到大量屬性或賣點等。

同樣對於用戶Query
也會做NLU的結構化表示和識別，
由於用戶經常會包含類似
13號商品的指代信息，
這時候還涉及到上下文的消歧，
有些情況還需要做反問確認等等。

再進一步
我們會綜合這些信息
到視頻的預訓練模型上面
去做跨模態對齊和信息融合。

這里的展現是
在回放場景，
通過主播小助理點進去了以后，
可以看到
它推薦的熱門問題部分
可以做視覺呈現，
支持快速跳轉回放。

目前整個工作還在不斷的進展中，
我們也在去覆蓋到更多的行業和場景，
后面有機會的話可以再去做分享。

04-總結

preview

做個小結，

我們看到人機交互已經變成了多模態或者全模態融合的交互形式，

以數字人為例今天提供了更多的維度和空間，

幫助我們去構建一個更加人性化、更加友好的交互體驗。

同時隨着生成技術發展以及結合知識圖譜的擴展與推理能力，

能夠讓整個內容生產跟得上今天交互形態的發展。

最后，預訓練技術其實從文本到多模態已經形成了明確的發展趨勢，

未來在面向直播的這種低延時，高噪聲的場景里邊，

可能有更多的問題和挑戰需要我們去解決。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 2021中國數字服務大會 | 阿里雲混合雲新一代運維演進與實踐 Dapr 在阿里雲原生的實踐 Angular開發實踐（四）：組件之間的交互數字簽名，數字證書，交互過程及X.509數字證書的結構阿里盒馬領域驅動設計實踐翻譯 | 阿里巴巴的Dapr實踐與探索 CDH6.1.1阿里雲安裝實踐在阿里雲上搭建nginx + ThinkPHP 的實踐阿里雲短信接口開發實踐（Java 數字邏輯實踐2->Verilog編寫規范