摘要:近期,全球人工智能領域的頂級學術會議AAAI 2021將於2月2日-9日在線上召開,華為雲的7篇AI科研成果被收錄。
全球人工智能領域的頂級學術會議AAAI 2021將於2月2日-9日在線上召開。論文錄用結果顯示,華為雲的7篇AI科研成果被收錄。論文內容涉及聯邦學習、深度學習、機器學習、自然語言處理、遷移學習、知識計算等技術領域,充分展現了華為雲在人工智能領域的基礎研究實力。技術創新和應用落地是這些論文的亮點,相關技術目前已在油氣勘探、葯物研發、AI開發、智能交通等業務場景下規模化落地,加速行業智能升級。
AAAI每年評審並收錄來自全球最頂尖的人工智能領域學術論文,代表全球AI技術的趨勢和未來。
以下是華為雲此次入選7篇論文介紹:
論文一:業界首創自分組個性化聯邦學習框架,並已落地華為雲ModelArts
論文標題:《非獨立同分布下的自分組個性化聯邦學習》(Personalized Cross-Silo Federated Learning on Non-IID Data)
論文地址:https://arxiv.org/abs/2007.03797
聯邦學習機制以其獨有的隱私保護機制受到很多擁有高質數據的大客戶青睞。但是,各大客戶的數據分布非常不一致,對模型的需求也不盡相同,這些在很大程度上制約了傳統聯邦學習方法的性能和應用范圍。華為雲自研FedAMP聯邦學習框架使用獨特的自適應分組學習機制(如圖一)讓擁有相似數據分布的客戶進行更多合作,並對每個客戶的模型進行個性化定制,從而有效處理普遍存在的數據分布不一致問題,並大幅度提高聯邦學習性能。通過與中國科學院上海葯物所在AI葯物聯邦學習上的合作,FedAMP優質的性能獲得了蔣華良院士的高度認可,並在中國醫葯創新與投資大會上吸引了眾多醫療制葯廠商洽談合作。
圖1 FedAMP聯邦學習框架
論文二: 首次提出利用物理信息深度學習的框架將二階交通理論模型融合到神經網絡中,以高效解決交通態的估值的問題:(Physics-Informed Deep Learning for Traffic State Estimation: A Hybrid Paradigm Informed By Second-Order Traffic Models)
交通態的估值需要解決如何使用稀疏的傳感器(如傳感線圈,浮動車)數據將整條道路的交通態(如速度,流量,密度)完整地估計出來。這對算法的數據效率有着非常高的要求,而傳統的純交通模型和純機器學習的解決方案的效果均不理想。針對這些問題,本論文提出了基於物理信息深度學習框架,通過對激勵函數和連接權重的特殊設計,將復雜的二階交通模型編碼到神經網絡中去(圖二-a),讓神經網絡在高階交通理論的約束下進行訓練。具體方法是,使用傳統神經網絡進行交通態的估值,然后將估值進一步輸入到物理信息神經網絡中去,計算出該估值的理論余量來量化偏移交通理論的程度。這個理論余量為估值網絡的訓練提供了重要的正則化信息,大大提高了估值模型的訓練效率和估值精度。如圖(圖二-b)所示,本方法可以基於很少的觀測數據獲得更高的估值准確度。
本文是華為員工在哥倫比亞大學深造期間完成的工作。
(a)
(b)
圖2 編碼了二階交通理論模型的物理信息神經網絡與交通態估值結果
論文三:使用圖卷積網絡擬合權值共享神經結構搜索的搜索空間,提升神經結構搜索魯棒性。(Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks)
論文地址:https://arxiv.org/pdf/2004.08423.pdf
權值共享的神經結構搜索通過訓練一個包含所有分支的超網絡來復用不同操作上的計算量,以子網絡采樣的方式評估網絡結構,大幅度提高了搜索速度。然而,這種子網絡采樣的方式並不能保證子網絡的評估性能准確反映其真實屬性。本文認為產生這一現象的原因是使用共享權值構建子網絡的過程中產生了權值失配,使得評估性能中混入了一個隨機噪聲項。本論文提出使用一個圖卷積網絡來擬合采樣子網絡的評估性能,從而將這個隨機噪聲的影響降至最低。實驗結果表明,使用本方案后,子網絡的擬合性能與真實性能間的排序相關性得到有效提高,最終搜索得到的網絡結構性能也更加優異。此外,本方案通過圖卷積網絡擬合了整個搜索空間中子網絡的評估性能,因此可以很方便地選取符合不同硬件約束的網絡結構。
圖3 總體框架示意圖
論文四:首次提出基於多輪閱讀理解的框架解決實體鏈接問題
實體鏈接是將文本中提到的實體鏈接到知識庫中對應實體的任務,目的是解決實體存在的歧義性問題,但由於名稱的變化和實體的模糊性,此任務十分具有挑戰性,尤其是短文本的實體鏈接,由於句子長度短,在鏈接過程中,每個待消歧的實體能利用的上下文信息非常有限。針對這個任務,本論文提出了一個多項選擇閱讀理解的框架,為句子中每個待消歧的實體分別生成一個問題,並將知識庫中的候選實體轉換成候選答案集,通過這樣一個設計,實體鏈接轉換為了一個閱讀理解的問題(圖1 Local部分)。
在選擇正確答案的過程中,待消歧實體的上下文信息與知識庫中的候選實體之間獲得了充分的交互,同時多個候選實體間的區別也得到了潛在地考慮。為了進一步捕捉句子內待消歧實體間的主題一致性來提高鏈接的准確率,本文采用了多輪閱讀理解的方式以序列去處理多個待消歧的實體(圖1 Global部分),為句子內多個實體的消歧提供了更豐富的信息。另外,為了解決短文本中常見的不可鏈接問題(即知識庫中沒有對應的實體),本文額外設計了一個兩階段的驗證機制來判斷實體是否可被鏈接。本論文提出的方法在多個中英文數據集上均取得了目前最優的實體鏈接效果。
圖4 基於多輪閱讀理解的實體鏈接框架
論文五:首次提出基於多尺度地質知識遷移的跨區塊油氣儲集層分類算法,利用遷移學習提升跨區塊油氣儲集層分類效果。(Cross-Oilfield Reservoir Classification via Multi-Scale Sensor Knowledge Transfer)
油氣儲集層分類是油氣勘探中的一個關鍵步驟(如圖一所示),自動准確的油氣儲集層分類方法不僅可以降低油氣行業專家的工作負擔,也可以幫助油氣勘探公司做出最優的開采決策。當前已有的油氣儲集層分類主要關注在單一區塊上的分類效果,但是在新區塊上應用效果卻不盡如人意。因此,如何遷移地層特征從而實現跨區塊也能准確分類是一個富有挑戰的任務。本論文首次提出了一種多尺度傳感器抽取方法從多元測井記錄中抽取地質特征的多尺度表示,然后設計了一種encoder-decoder模塊來充分利用目標和源區塊的特有特征,最后通過一個知識遷移模塊來學習特征不變性表示,從而將地質知識從源區塊遷移到目標區塊。真實油氣數據上的實驗結果表明本論文精心設計的遷移學習方法,可以提升分類模型在新區塊上的分類表現,相較於基線算法可以有%6.1的效果提升。
圖5 油氣勘探工作流
論文六:首次提供基於超幾何分布的概率模型,用於解決遠程監督命名實體識別中的去噪問題。(Denoising Distantly Supervised Named Entity Recognition via
a Hypergeometric Probabilistic Model)
遠程監督是一種常見的機器學習范式,可以降低對標注數據的依賴。但是遠程監督往往會引入噪聲,從而影響學習效果。對於基於遠程監督的命名實體識別(NER)來說,如何有效去噪就是一個十分重要的問題。以往的去噪方法主要基於實例層次的統計結果,往往忽略了不同數據集不同實體類型之間噪聲分布的差異性,從而導致這些方法何難適用於高噪聲比例的設定。本論文提出了一種基於超幾何分布的學習方法,同時考慮噪聲分布和實例層次的置信度。具體而言,我們將每個訓練batch里面噪聲樣本的數量建模成一個由噪聲比例決定的超幾何分布,這樣一來每個實例都可以通過上一輪訓練獲得的置信度來決定是噪聲還是正確樣本。實驗結果表明本論文提出的方法可以有效去除遠程監督范式引入的噪聲,顯著提升NER的效果。
該工作由華為雲團隊與中科院軟件所合作完成。
論文七:提出基於對抗學習與相似性增強的域泛化訓練新框架,在域泛化行人再識別領域創下新紀錄 (Dual Distribution Alignment Network for Generalizable Person Re-Identification)
域泛化是一種適用於現實應用場景的機器學習范式,對於行人再識別問題,域泛化是指在大規模多源數據上進行模型訓練,期望模型在任意未知的場景中都能夠直接適用。現實應用中,大規模訓練數據往往難以收集,域泛化方法正是一個使得模型能夠低成本快速部署的優秀方案。以往的方法對域間的巨大差異缺乏有效的處理手段,同時忽略了域間樣本可能的相似性信息。在數據域層面,本論文提出了新的對抗學習方法,通過減少中心域與外圍域的差異,實現了域間差異的有效消除;在樣本層面,本論文通過增強來自不同域的相似樣本之間的相似性,進一步對齊來自不同域的樣本特征分布。在這兩個方面的共同作用下,本論文的雙重分布對齊網絡實現了新的性能突破。實驗表明,所提方法在公共測試基准數據集上取得了當前最好的結果。
該工作由華為雲團隊與廈門大學合作完成。
圖7 針對域泛化行人再識別問題的雙重分布對齊網絡示意圖
為了更好地賦能產業升級,華為雲持續深耕AI基礎研究和落地應用,打造更懂世界的AI。2020年以來,華為雲EI研究團隊已在圖像分類、弱標注場景下的圖像分類、圖像檢測,多模態數據處理、語音語義等領域取得多項世界第一。未來,華為雲將持續把AI前沿算法產品化,並開放給各行業的AI開發者使用,通過技術創新驅動產業智能升級。