美國時間2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智能領域的頂級學術會議,每年評審並收錄來自全球最頂尖的學術論文,這些學術研究引領着技術的趨勢和未來。京東雲與AI在本次大會上有10篇論文被AAAI收錄,涉及自然語言處理、計算機視覺、機器學習等領域, 充分展現了京東用技術驅動公司成長的發展模式以及技術實力,技術創新和應用落地也成為這些論文最吸引行業關注的亮點。
本屆會議共收到的有效論文投稿超過8800篇,其中7737 篇論文進入評審環節,最終錄取數量為1591篇,錄取率為20.6%。京東雲與AI共有10篇論文入選AAAI 2020,研究領域涵蓋人臉識別、人臉解析、機器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術研究領域,這些能力目前已在市政安防、實體零售、智能客服等業務場景下規模化落地,未來京東雲與AI作為值得信賴的智能技術提供者,會持續進行技術與業務融合的探索,這些落地的技術能力也將迎來更加廣闊的應用前景。
以下是京東雲與AI此次入選10篇論文:
對抗樣本與模型魯棒性研究
1. 基於Frank-Wolfe框架的高效對抗攻擊算法A Frank-Wolfe Framework for Efficient and Effective Adversarial Attacks
論文鏈接:https://arxiv.org/pdf/1811.10828.pdf;
根據模型攻擊者可獲取的信息量來區分,對抗樣本攻擊可分為白盒與黑盒兩種攻擊形式。雖然基於優化的攻擊算法如PGD等可以在白盒攻擊情況下獲得較高的攻擊成功率,但它們生成的對抗樣本往往有着較高的失真度。此外,它們相應的黑盒攻擊算法通常查詢效率較差,需要對被攻擊的黑盒模型訪問非常多次才能實現攻擊,從而大幅限制了它們的實用性。針對這一問題,京東、弗吉尼亞大學和加州大學洛杉磯分校合作提出了一種基於Frank-Wolfe框架的高效對抗攻擊算法,可靈活運用於白盒和黑盒對抗樣本攻擊。
作者從理論上證明了所提的攻擊算法具有的收斂速率,並在ImageNet和MNIST數據集上驗證了所提出算法的性能。對比所有參評的白盒與黑盒攻擊基准算法,本文提出的算法在攻擊成功率,攻擊時間和查詢效率上均顯著占優。
2. 通過對抗樣本評估序列到序列模型魯棒性Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
論文鏈接:https://arxiv.org/pdf/1803.01128.pdf;
利用對抗樣本攻擊的難易度來評估深度神經網絡的魯棒性已成為業界常用的方法之一。然而,大多數現有的對抗攻擊算法都集中在基於卷積神經網絡的圖像分類問題上,因為它的輸入空間連續且輸出空間有限,便於實現對抗樣本攻擊。在本文中,來自京東、加州大學洛杉磯分校和IBM研究院的研究者們探索了一個更加困難的問題,即如何攻擊基於循環神經網絡的序列到序列(Sequence to Sequence)模型。這一模型的輸入是離散的文本字符串,而輸出的可能取值則幾乎是無窮的,因此難以設計對抗攻擊方案,在本文之前也未被成功攻破過。為了解決離散輸入空間帶來的挑戰,研究者們提出了結合group lasso和梯度正則化的投影梯度方法。針對近乎無限輸出空間帶來的問題,他們也設計了一些全新的損失函數來實現兩種新的攻擊方式:(1) 非重疊攻擊,即保證模型被攻擊后的輸出語句與正常情況下的輸出語句不存在任何重合,(2)目標關鍵詞攻擊,即給定任意一組關鍵詞,保證模型被攻擊后的輸出語句包含這些關鍵詞。
最終,研究者們將算法應用於序列到序列模型常用的兩大任務機器翻譯和文本摘要中,發現通過對輸入文本做輕微的改動,即可以顯著改變序列到序列模型的輸出,成功實現了對抗樣本攻擊。同時,研究者們也指出,雖然攻擊取得了成功,但與基於卷積神經網絡的分類模型相比,序列到序列模型的對抗攻擊難度更大,且對抗樣本更容易被發現,因此從對抗攻擊的角度進行衡量,序列到序列模型是一種魯棒性更優的模型。
機器閱讀理解
3.多跳多文檔閱讀理解研究
Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents
論文鏈接:https://arxiv.org/pdf/1911.00484v2.pdf;
可解釋的對多文檔多跳閱讀理解(RC)是一個具有挑戰性的問題,因為它需要對多個信息源進行推理並通過提供支持證據來解釋答案預測。《Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents》論文中提出了一種可解釋的多跳多文檔閱讀理解的方法,通過設計一個有效的文檔篩選模塊和基於圖神經網絡的推理模塊,針對給定問題可以同時准確的找出問題的答案以及支持答案的證據。
多跳多文檔閱讀理解方法示意圖
文本生成
4.基於要素感知的多模態電商商品摘要Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products
論文鏈接:http://box.jd.com/sharedInfo/2926429040ECC7D3;
《Aspect-Aware Multimodal Summarization for Chinese E-Commerce Products》論文中提出了一個基於商品要素的多模態商品信息自動摘要系統,其可以根據商品的文本描述和商品圖片自動生成商品營銷短文。商品的外觀決定了用戶對該商品的第一印象,商品的功能屬性最終決定了用戶的購買行為,論文提出的多模態商品信息自動摘要系統可以有效的整合商品的外觀和功能信息,自動捕捉到該商品的特色賣點,並為其生成一段簡短的營銷短文。不同的用戶關注的商品要素往往是不同的,比如冰箱的“能耗”和”容量”,手機的“內存”和“屏幕”。系統以商品要素為切入點,挖掘商品最有賣點的商品要素,並從商品要素維度控制輸出文本的信息冗余度、可讀性和對輸入信息的忠實度,最終生成一段簡潔凝練、賣點突出、流暢、合規的商品營銷短文,以期待引起潛在購買者的共鳴。
模型框架圖
5.基於關鍵詞指導的生成式句子摘要Keywords-Guided Abstractive Sentence Summarization
論文鏈接:http://box.jd.com/sharedInfo/B2234BB08E365EEC;
《Keywords-Guided Abstractive Sentence Summarization》論文中提出了一種文本摘要的新方法,即利用輸入文本的關鍵詞信息提高了文本摘要模型的質量。論文模擬了人類生成摘要的過程:當人類為某一段文本生成摘要時,首先會對該文本進行閱讀,並識別出里面的關鍵詞,進而通過創作加工,將這些關鍵詞以流暢的語言表達出來。另外,文本摘要和文本關鍵詞抽取在本質上是相通的,即都是在輸入文本中提取關鍵信息,僅僅是輸出的形式有所差異。基於上述思考,論文提出一個多任務學習框架,通過一個共享的編碼器,互相強化文本摘要和關鍵詞抽取任務。在解碼器生成摘要時,利用關鍵詞的信息和原始輸入文本進行交互,通過雙重注意力和雙重拷貝機制,在關鍵詞的指導下,為輸入文本生成摘要。
共選擇編碼模型的框架
6.基於多模態信息指導的多模態摘要Multimodal Summarization with Guidance of Multimodal Reference
論文鏈接:http://box.jd.com/sharedInfo/36929195FF05B01F;
論文《Multimodal Summarization with Guidance of Multimodal Reference》提出了一種基於多模態信息監督的多模態自動摘要模型,該模型以文本和圖片作為輸入,生成圖文並茂的摘要。傳統的多模態自動摘要模型在訓練過程中,往往以文本參考摘要的極大似然損失作為目標函數,然后利用注意力機制來挑選與文本相對應的圖片。這種做法容易帶來模態偏差的問題,即模型會傾向於優化文本生成的質量而忽視了圖片挑選的質量。論文提出的模型優化了多模態摘要模型的目標函數,即在文本參考摘要的損失函數的基礎上增加了圖片參考摘要的損失函數。實驗發現,在引入了多模態信息監督訓練后,多模態自動摘要模型的圖片挑選質量得到了顯著的改善,文本生成質量也有所改進,從而可以生成更高質量的圖文摘要。
多模態基准指導的多模態自動文摘框架圖
7.文本到SQL的生成研究
Zero-shot Text-to-SQL Learning with Auxiliary Task
論文鏈接:https://arxiv.org/pdf/1908.11052.pdf;
近年來,在Text-to-SQL任務中使用神經Seq2Seq模型取得了巨大的成功。但是,很少有研究關注這些模型如何推廣到實際不可見數據中。論文《Zero-shot Text-to-SQL Learning with Auxiliary Task》通過設計一個有效的輔助任務支持模型以及生成任務的正則化項,以增加模型的泛化能力。通過在大型文本到SQL數據集WikiSQL上實驗評估模型,與強大的基線粗到精模型相比,論文中打造的模型在整個數據集上的絕對精度比基線提高了3%以上。在WikiSQL的Zero-shot子集測試中,這一模型在基線上獲得了5%的絕對准確度增益,清楚地證明了其卓越的通用性。
論文設計的模型示意圖
智慧城市研究
8.車站潛在客流的智能化預測Potential Passenger Flow Prediction: A Novel Study for Urban Transportation Development
論文鏈接:https://arxiv.org/pdf/1912.03440.pdf;
隨着城市人口的增多和城市化的不斷發展,公共交通工具如地鐵正在發揮着越來越重要的作用。為了讓地鐵能夠發揮更大的作用,方便人們出行,需要精准預測每個車站在未來的潛在客流量,從而為地鐵站的選址和建設規模提供建議。針對這一問題,京東和悉尼科技大學的研究者們合作提出了一種多視圖局部相關性學習方法。其核心思想是利用自適應權重來了解目標區域及其局部區域之間的客流相關性,並通過嵌入一些領域知識到多視圖學習過程中的方法來綜合提升對潛在客流的預測准確性。
潛在客流預測問題
模型流程圖
文中通過大量的實驗結果表明,相比於一些其他預測算法,論文中提出的方法取得了顯著更優的預測准確性,可以為車站規划和城市智能化建設提供更為有力的保障。此外,文中所提的思路也對解決推薦系統中的冷啟動問題提供了一定的借鑒意義。
人臉識別
9.基於分錯特征引導的損失函數
Mis-classified Vector Guided Softmax Loss for Face Recognition
論文鏈接:https://arxiv.org/pdf/1912.00833.pdf;
在人臉識別領域,各個場景下的應用對算法能力提出了更高的要求。人臉識別的規模已從原來的千人、萬人級增大到百萬人甚至千萬人。目前研究面臨的一大挑戰是在識別規模越來越大的場景下,如何在較低的誤識率的同時保持識別通過率。現有的人臉識別主流訓練算法主要歸類為margin-based和mining-based兩大類,但都存在各自的方法上的缺陷。論文《Mis-classified Vector Guided Softmax Loss for Face Recognition》就針對如何讓模型學習得到判別能力更優秀的人臉特征,研究了一種新的人臉識別訓練算法,利用論文中提出的Mis-classified Vector Guided Softmax,能夠同時優化現有方法存在的缺陷,並且幫助識別網絡在訓練過程中獲得更有針對性的難例強調,實現更據鑒別能力的模型訓練。論文的方法在目前多個公開人臉識別測試集上驗證了有效性,並且識別精度超過了現有的方法。
MV-Softmax特征的幾何解釋
人臉解析
10.數據庫和一種邊緣感知的語義分割方法
A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing
論文鏈接:http://box.jd.com/sharedInfo/C1BEAD9CBDB50DA3;
近年來,人臉解析因其潛在的應用價值而受到了越來越多的關注。論文《A New Dataset and Boundary-Attention Semantic Segmentation for Face Parsing》從人臉解析領域存在的問題出發,在數據和算法兩個方面做出了貢獻。首先,論文提出了一種高效的像素級的人臉解析數據標注框架,該框架極大的降低了數據的標注難度,使他們在短時間內構建了一個大規模的人臉解析數據集(LaPa)。該數據集包含了超過22,000張人臉圖片,且覆蓋了多種姿態、光照和表情變化。同時,本文還提出了一種有效的邊界注意力的語義分割方法(BASS),該方法從網絡結構和損失函數兩方面着手,充分利用圖像的邊界信息來提升語義分割精度,論文中設計了大量的實驗來驗證該方法的有效性,同時該方法取得了公開數據集Helen上SOTA的性能。
BASS的網絡結構示意圖
從這些前沿的研究成果不難看出,京東雲與AI正致力於將語音語義、計算機視覺、機器學習等技術在商品推薦、實體零售等領域持續落地應用,不僅注重技術的先進性,更注重應用的可信賴。 一直以來京東雲與AI致力於踐行可信賴的AI,“可信賴的AI”不是口號,也不僅僅是價值觀層面。它有六個維度,公平、魯棒性、價值對齊、可復制、可解釋和負責任,此次入選論文中就包含着對“對抗樣本與模型魯棒性”的研究。一面是對技術的巨大挑戰,一面是人文精神,成為最值得信賴的智能技術提供者正是京東雲與AI執着追求的社會責任與價值體現。
2019年8月,以NeuHub京東人工智能開放平台為載體,京東入選智能供應鏈國家人工智能開放平台,依托這一平台的技術積累,京東雲與AI在疫情期間快速推出應急資源信息發布平台,上線半個月時間即幫助湖北、武漢及其他疫情波及地區供應醫療類、消毒類、生活類等各類救援物資超過2.6億件,供應葯品超過4億盒。其中包含各類口罩1.5億只、護目鏡40.6萬個、防護服鞋套283.72萬套等抗疫必需品;基於京東雲與AI領先的語音語義技術研發的智能疫情助理,已在北京、山東、安徽、江蘇、江西、四川等地的十多個行業、一千余家組織和機構中快速落地,免費提供疫情咨詢服務,累計服務咨詢數量達數百萬條。切實讓民眾在疫情這一特殊時期感受到技術帶來的溫暖和便利。
2019年,京東在雲、AI、IoT等技術領域和業務的探索完成了京東雲與AI在ABCDE技術戰略的布局。這個戰略是我們技術上深度融合,融合AI(人工智能)、Big Data(大數據)、Cloud(雲計算)、Devices(IoT)和Exploration(前沿探索)對外賦能,為產業融合、科技創新,提供最堅實、最前沿、最可信賴的基礎設施和服務。
京東雲與AI總裁、京東集團技術委員會主席周伯文博士表示,京東技術戰略“ABCDE”的本質是促進技術融合帶來的價值疊加,通過前沿技術的研發,與行業Know-how進一步緊密結合,與合作伙伴一道共建良好的技術合作生態,並時刻要以用例為中心,用京東雲與AI的技術積累對外賦能,解決真實場景問題,以最終實現面向社會創造更多價值。
如何進行技術和產業的融合一直是AI行業和企業關注的重點。2020年,京東雲與AI作為“技術輸出”的先行者,他的身影還將在更多的全球頂級學術、科技大會上出現,並持續深耕技術與實體經濟的融合,探索技術的邊界與應用價值,推動產學研用的一體化建設。 京東雲與AI也將繼續用扎實的技術積累對外賦能,與社會各界共同創造並見證雲智聯世界、產業互聯網蓬勃發展的新時代!
歡迎點擊“京東雲”了解更多精彩內容。