鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!
arXiv:1908.07873v1 [cs.LG] 21 Aug 2019
Abstract
聯邦學習包括通過遠程設備或孤立的數據中心(如移動電話或醫院)訓練統計模型,同時保持數據本地化。在異構和潛在的大規模網絡中進行訓練帶來了新的挑戰,這些挑戰的要求從根本上偏離了大規模機器學習、分布式優化和隱私保護數據分析的標准方法。在這篇文章中,我們討論了聯邦學習的獨特特點和挑戰,對當前的方法進行了廣泛的概述,並概述了與廣泛的研究界相關的未來工作的幾個方向。
1 Introduction
移動電話、可穿戴設備和自動駕駛車輛只是現代分布式網絡中的一小部分,它們每天都會產生大量的數據。由於這些設備的計算能力不斷增強,再加上對傳輸私有信息的關注,在本地存儲數據並將網絡計算推向邊緣變得越來越有吸引力。
邊緣計算並不是一個新概念。事實上,在分布式、低功耗設備上計算簡單查詢是一個長達數十年的研究領域,在傳感器網絡查詢處理、邊緣計算和霧計算等領域都進行了探索[12,29,40,49,74]。最近的研究還集中考慮了機器學習模型的訓練,但在本地提供和存儲它們;例如,這是移動用戶建模和個性化的常見方法[60,90]。
然而,隨着分布式網絡中設備的存儲和計算能力的增長,有可能在每個設備上利用增強的本地資源。這使得人們對聯邦學習越來越感興趣[75],它直接在遠程設備上探索訓練統計模型[注1:在本文中,我們使用術語“設備”來描述網絡中的實體,如節點、客戶機、傳感器或組織]。正如我們在本文中所討論的,在這樣的環境中學習與傳統的分布式環境有着顯著的不同——要求在隱私、大規模機器學習和分布式優化等領域取得根本性的進步,並在不同領域的交叉點提出了新的問題,如機器學習和系統[91]。
主要服務提供商已經部署了聯邦學習方法[11,124],並且在支持隱私敏感應用方面發揮了關鍵作用,其中訓練數據分布在邊緣[例如,5,46,51,89,105,127,139]。潛在應用的例子包括:學習情緒、語義位置或移動電話用戶的活動;適應自動車輛中的行人行為;預測可穿戴設備的心臟病發作風險等健康事件[6,52,84]。我們在下面討論聯邦學習的幾個典型應用:
- 智能手機:通過在大量移動電話中聯邦學習用戶行為,統計模型可以為諸如下一個單詞預測、人臉檢測和語音識別等應用提供動力[46,89]。然而,用戶可能不願意為了保護個人隱私或節省手機有限的帶寬/電池電量而共享數據。聯邦學習有可能在智能手機上實現預測功能,而不會降低用戶體驗或泄露私人信息。圖1描述了一個這樣的應用程序,在這個應用程序中,我們的目標是基於用戶的歷史文本數據來學習大型移動電話網絡中的下一個單詞預測器[46]。
- 組織:在聯邦學習的背景下,組織或機構也可以被視為“設備”。例如,醫院是包含大量患者數據的組織,用於預測醫療保健。然而,醫院在嚴格的隱私措施下運營,可能會面臨法律、行政或道德約束,這些約束要求數據保持本地。聯邦學習對於這些應用來說是一個很有前途的解決方案[52],因為它可以減少網絡上的壓力,並支持各種設備/組織之間的私有學習。
- 物聯網:現代物聯網,如可穿戴設備、自主車輛或智慧家庭,可能包含許多傳感器,使他們能夠收集、反應和適應實時輸入的數據。例如,一組自主車輛可能需要最新的交通、建築或行人行為模型才能安全運行。然而,由於數據的私密性和每個設備的有限連接,在這些場景中構建聚合模型可能很困難。聯邦學習方法有助於訓練模型,使其能夠有效地適應這些系統中的變化,同時保持用戶隱私[84,98]。
1.1 Problem Formulation
典型的聯邦學習問題涉及到從存儲在數千萬到潛在的數百萬遠程設備上的數據學習單個全局統計模型。我們的目標是在設備生成的數據被本地存儲和處理的約束下學習這個模型,而只有中間更新周期性地與中央服務器進行通信。特別是,目標通常是最小化以下目標函數:
1.2 Core Challenges
接下來,我們將描述與解決(1)中提出的分布式優化問題相關的四個核心挑戰。這些挑戰使得聯邦設置不同於其他經典問題,例如數據中心設置中的分布式學習或傳統的私有數據分析。
挑戰1:昂貴的溝通。在聯邦網絡中,通信是一個關鍵的瓶頸,再加上發送原始數據的隱私問題,使得在每個設備上生成的數據必須保持本地。事實上,聯邦網絡可能由大量設備組成,例如數百萬部智能手機,網絡中的通信速度可能比本地計算慢很多個數量級[50,115]。為了使模型與聯邦網絡中的設備生成的數據相匹配,因此有必要開發通信效率高的方法,作為訓練過程的一部分,迭代地發送小消息或模型更新,而不是通過網絡發送整個數據集。為了在這種情況下進一步減少通信,需要考慮的兩個關鍵方面是:(i)減少通信回合的總數,或(ii)在每一回合減少發送的消息大小。
挑戰2:系統異構性。由於硬件(CPU,內存)、網絡連接(3G,4G,5G,wifi)和電源(電池電量)的變化,聯邦網絡中每個設備的存儲、計算和通信能力可能不同。此外,每個設備上的網絡大小和系統相關限制導致同時活躍的設備通常僅占一小部分,例如,一百萬個設備網絡中的數百個活躍設備[11]。每個設備也可能不可靠,並且由於連接性或能量限制,活躍設備在給定迭代中隨機失活的情況並不少見。這些系統級特性極大地加劇了諸如掉隊者緩解和容錯等挑戰。因此,開發和分析的聯邦學習方法必須:(i) 預計參與人數較少,(ii) 容忍異構硬件,以及(iii) 對網絡中的已下線設備具有魯棒性。
挑戰3:統計異質性。設備經常以non-IID的方式在網絡上生成和收集數據,例如,移動電話用戶在下一個單詞預測任務的上下文中使用了不同的語言。此外,跨設備的數據點的數量可能有很大的變化,並且可能存在捕獲設備之間的關系及其相關分布的底層結構。這種數據生成范例違反了分布式優化中經常使用的獨立同分布(I.I.D)假設,增加了掉隊者的可能性,並且可能在建模、分析和評估方面增加復雜性。事實上,雖然(1)的規范聯邦學習問題旨在學習一個單一的全局模型,但是存在其他選擇,例如同時通過多任務學習框架學習不同的局部模型[參見106]。在這方面,聯邦學習和元學習的主要方法之間也有密切的聯系[64]。多任務和元學習視角都支持個性化或特定於設備的建模,這通常是處理數據統計異質性的更自然的方法。
挑戰4:隱私問題。最后,在聯邦學習應用程序中,隱私通常是一個主要的關注點。聯邦學習通過共享模型更新(例如梯度信息)而不是原始數據,朝着保護在每個設備上生成的數據邁出了一步[17,31,33]。然而,在整個訓練過程中進行模型更新的通信仍然可以向第三方或中央服務器顯示敏感信息[76]。雖然最近的方法旨在使用安全多方計算或差異隱私等工具增強聯邦學習的隱私性,但這些方法通常以降低模型性能或系統效率為代價提供隱私。在理論和經驗上理解和平衡這些權衡是實現私有聯邦學習系統的一個相當大的挑戰。
本文的其余部分組織如下。在第二節中,我們將介紹以前和現在的工作,這些工作旨在解決聯邦學習中討論的四個挑戰。在第三節中,我們概述了未來研究的幾個有希望的方向。
2 Survey of Related and Current Work
聯邦學習的挑戰乍一看像是隱私、大規模機器學習和分布式優化等領域的經典問題。例如,已經提出了許多方法來解決機器學習、優化和信號處理領域中昂貴的通信問題。然而,這些方法通常無法完全處理聯邦網絡的規模,更不用說系統和統計異構性的挑戰了。類似地,雖然隱私是許多機器學習應用程序的一個重要方面,但是由於數據的統計變化,聯邦學習的隱私保護方法很難嚴格斷言,而且,由於每個設備上的系統限制以及跨越潛在的巨大網絡,實現起來可能更加困難。在本節中,我們將更詳細地探討第一節中提出的挑戰,包括對經典結果的討論,以及最近專門針對聯邦學習的工作。
2.1 Communication-efficiency
在開發聯邦網絡的方法時,通信是一個需要考慮的關鍵瓶頸。雖然對通信效率高的分布式學習方法提供一個獨立的綜述超出了本文的范圍,但是我們指出了幾個一般的方向,我們將其分為(1)局部更新方法,(2)壓縮方案和(3)去中心化訓練。
2.1.1 Local Updating
小批量優化方法,包括擴展經典隨機方法來同時處理多個數據點,已經成為數據中心環境中分布式機器學習的一個流行范例[28,88,96,102,103]。然而,在實踐中,它們被證明具有有限的靈活性,以適應最大限度地利用分布式數據處理的通信計算折衷[107,108]。作為響應,已經提出了幾種最近的方法,通過允許在每輪通信上並行地在每台機器上應用可變數量的局部更新來提高分布式設置中的通信效率,使得計算量與通信量基本上更為靈活。對於凸目標,分布式局部更新原始對偶方法已經成為解決這類問題的一種常用方法[54,62,72,107,128]。這些方法利用對偶結構,有效地將全局目標分解成子問題,並在每一輪通信中並行求解。還提出了幾種分布式局部更新原始方法,這些方法的附加優點是適用於非凸目標[93,136]。在實際應用中,這些方法大大提高了性能,並且在實際數據中心環境中,與傳統的小批量方法或分布式方法(如ADMM[14])相比,它們的速度提高了一個數量級。我們在圖2中直觀地說明了局部更新方法。
在聯邦設置中,允許靈活的局部更新和低客戶端參與的優化方法已經成為事實上的求解器[65, 75, 106]。聯邦學習最常用的方法是聯邦平均(FedAvg)[75],這是一種基於局部隨機梯度下降(SGD)平均更新的方法。FedAvg在經驗上表現得很好,特別是在非凸問題上,但它沒有收斂性保證,並且在實際情況下,當數據是異構的時,它可能會發散[65]。我們在第2.3.2節中更詳細地討論了處理這種統計異質性的方法。
2.1.2 Compression Schemes
雖然局部更新方法可以減少通信的總輪數,但模型壓縮方案(如稀疏化、子采樣和量化)可以顯著減少每輪通信的消息大小。在數據中心環境下的分布式訓練的以往文獻中,這些方法在經驗和理論上都得到了廣泛的研究;我們將讀者推薦到[119,135]進行更全面的回顧。在聯邦環境中,設備的低參與度、非獨立同分布的局部數據和局部更新方案對這些模型壓縮方法提出了新的挑戰。例如,經典分布式學習[101]中常用的錯誤補償技術不能直接擴展到聯邦設置,因為如果不經常對設備進行采樣,局部累積的錯誤可能會過時。然而,一些工作在聯邦設置中提供了實用的策略,例如強制更新模型變得稀疏和低秩;使用結構化隨機旋轉執行量化[59];使用有損壓縮和隨機失活來減少服務器到設備的通信[15];以及應用Golomb無損編碼[99]。從理論上看,雖然先前的工作已經探索了在非獨立同分布數據存在的情況下[例如111],通過低精度訓練的收斂保證,但是所做的假設沒有考慮聯邦設置的共同特征,例如低設備參與度或局部更新優化方法。
2.1.3 Decentralized Training
在聯邦學習中,星形網絡(如圖3的左側所示,中央服務器連接到設備網絡)是主要的通信拓撲結構;因此,我們在本文中重點討論星形網絡設置。然而,我們簡要地討論了去中心化拓撲(其中設備只與它們的鄰居通信,如圖3的右側)作為一種潛在的替代方案。在數據中心環境中,當在低帶寬或高延遲的網絡上操作時,去中心化訓練被證明比中心化訓練更快;我們推薦讀者在[47,67]上進行更全面的回顧。類似地,在聯邦學習中,去中心化算法理論上可以降低中央服務器上的高通信成本。最近的一些工作[47,61]研究了基於局部更新方案的異質數據去中心化訓練。然而,它們要么局限於線性模型[47],要么假設設備完全參與[61]。最后,還提出了層級通信模式[68,70],以進一步減輕中央服務器的負擔,首先利用邊緣服務器聚合來自邊緣設備的更新,然后依賴雲服務器聚合來自邊緣服務器的更新。雖然這是一種有前途的減少通信的方法,但它不適用於所有網絡,因為這種類型的物理層次可能不存在或先驗已知。
2.2 Systems Heterogeneity
在聯邦設置中,由於設備在硬件、網絡連接性和電池功率方面可能不同,因此整個網絡中的系統特性存在顯著的可變性。如圖4所示,這些系統特性使諸如掉隊者之類的問題比典型的數據中心環境更為普遍。我們大致將處理系統異構性的幾個關鍵方向分為:(i) 異步通信,(ii) 主動設備采樣,和(iii) 容錯。如第2.1.3節所述,我們在下面的討論中假設了星形拓撲。
2.2.1 Asynchronous Communication
在傳統的數據中心設置中,同步和異步方案都常用於並行迭代優化算法,每種方法都有優缺點。同步方案簡單且保證了串行等效計算模型,但在設備變化面前,它們也更容易受到掉隊者的影響。異步方案是一種很有吸引力的方法來減輕異構環境中的掉隊問題,特別是在共享內存系統中[27,30,48,92,141]。然而,它們通常依賴於有界延遲假設來控制過時的程度,對於設備k來說,這取決於自設備k從中央服務器拉取到的已更新的其他設備的數量。雖然異步參數服務器在分布式數據中心[如27,48,141]中已經取得了成功,但在聯邦設置中,經典的有界延遲假設可能是不現實的,在聯邦設置中,延遲可能是小時到天的順序,或是完全無界的。
2.2.2 Active Sampling
在聯邦網絡中,通常只有一小部分設備參與每一輪的訓練。然而,絕大多數聯邦方法,例如那些在[11,47,65,75,106]中描述的方法,是被動的,因為它們的目的不是影響哪些設備參與。另一種方法是在每一輪中積極選擇參與設備。例如,Nishio和Yonetani[83]探索基於系統資源的新設備采樣策略,目的是讓服務器在預定義的時間窗口內聚合盡可能多的設備更新。同樣,Kang等人[57]在設計激勵機制以鼓勵具有更高質量數據的設備參與學習過程時,考慮到了每個設備上產生的系統管理費用。然而,這些方法假設網絡系統特性為一個靜態模型;如何擴展這些方法來處理計算和通信延遲中的實時、特定於設備的波動仍然是一個開放的問題。此外,雖然這些方法主要關注系統可變性以執行主動采樣,但我們注意到,也值得考慮基於底層統計結構主動采樣一組小型但具有足夠代表性的設備。
2.2.3 Fault Tolerance
容錯在系統界得到了廣泛的研究,是經典分布式系統的一個基本考慮因素[19,71,110]。最近的工作還專門針對數據中心環境中的機器學習工作負載研究了容錯性[例如,87,112]。然而,當通過遠程設備學習時,容錯變得更為重要,因為在給定的訓練迭代完成之前,一些參與設備通常會在某個點退出。一種實用的策略是簡單地忽略這種設備故障[11],如果故障設備具有特定的數據特性,則可能會在設備采樣方案中引入偏差。例如,由於網絡連接不良,來自偏遠地區的設備可能更容易丟失,因此經過訓練的聯邦模型將偏向於具有良好網絡條件的設備。理論上,雖然最近的一些工作已經研究了聯邦學習方法變體的收斂保證[56,123,131,132],但是很少有分析允許低參與度[例如65,106],或者直接研究掉隊設備的影響。
編碼計算是通過引入算法冗余來容忍設備故障的另一種選擇。最近的研究探索了使用代碼加速分布式機器學習訓練的方法[例如,20,21,63,94,109]。例如,在存在偏離者的情況下,梯度編碼及其變體[20,21,109]小心地跨計算節點復制數據塊(以及這些數據塊上的梯度計算),以獲得真實梯度的精確或不精確重構。雖然這對於聯邦設置來說似乎是一種很有前途的方法,但是這些方法在聯邦網絡中面臨着根本的挑戰,因為由於隱私限制和網絡規模的限制,跨設備共享數據/復制通常是不可行的。
2.3 Statistical Heterogeneity
從數據建模(如圖5所示)和分析相關訓練過程的收斂行為兩個方面,用設備上的非獨立同分布數據來訓練聯邦模型時都會遇到挑戰。我們在下面這些方向討論相關工作。
2.3.1 Modeling Heterogeneous Data
在機器學習中存在大量的文獻,通過諸如元學習[114]和多任務學習[18,37]的方法來對統計異質性進行建模;這些想法最近已經擴展到聯邦設置[24,26,35,58,106,138]。例如,MOCHA[106],一個為聯邦設置設計的優化框架,可以通過學習每個設備的獨立但相關的模型來實現個性化,同時通過多任務學習利用共享的表示。該方法對所考慮的目標具有可證明的理論收斂性保證,但其擴展到大規模網絡的能力有限,且僅限於凸目標。另一種方法[26]將星型拓撲建模為貝葉斯網絡,並在學習期間執行變分推理。雖然這種方法可以處理非凸模型,但推廣到大型聯邦網絡是昂貴的。Khodak等人[58]使用多任務信息(其中每個任務對應於一個設備),可證明地對任務內學習率進行元學習,並已證明比普通FedAvg改進了實驗性能。Eichner等人[35]研究了一種多元解決方案(在全局模型和設備特定模型之間自適應選擇),以解決聯邦訓練期間數據樣本中的循環模式。Zhao等人[138]通過在一些共享代理數據上集中訓練全局模型后運行FedAvg,探索個性化的遷移學習。盡管最近取得了這些進展,但在為異質建模制定方法時仍然面臨着關鍵挑戰,這些方法在聯邦設置中是健壯的、可伸縮的和自動化的。
在對聯邦數據建模時,考慮精度以外的問題(如公平性)可能也很重要。尤其是,天真地求解如(1)中的總損失函數可能隱含地對某些設備有利或不利,因為所學習的模型可能偏向於具有較大數據量的設備,或者(如果相等地加權設備)偏向於通常出現的設備組。最近的工作提出了改進的建模方法,旨在減少設備之間模型性能的差異。一些啟發式算法只是根據本地損失執行不同數量的本地更新[52]。其他更具原則性的方法包括不可知聯邦學習(Agnostic Federated Learning)[80],它通過minimax優化方案優化由客戶機分布混合形成的任何目標分布的集中模型。Li等人[66]采取了另一種更普遍的方法,提出了一個被稱為q-FFL的目標,在該目標中,具有較高損失的設備被賦予較高的相對權重,以鼓勵在最終精度分布中減少方差。除了公平性問題外,我們還注意到聯邦學習中的問責性和可解釋性等方面也值得探討,但由於網絡的規模和異構性,這些方面可能具有挑戰性。
2.3.2 Convergence Guarantees for Non-IID Data
統計異質性在分析聯邦環境下的收斂行為方面也提出了新的挑戰,即使在學習單個全局模型時也是如此。事實上,當數據在網絡中的不同設備上分布不一致時,FedAvg等方法在實踐中已經被證明是不同的[65,75]。在I.I.D.設置中分析了並行SGD和相關變體,它們使本地更新與FedAvg相似[68,93,104,108,120,121,122,125,136,140]。然而,結果依賴於一個前提,即每個局部解算器是同一隨機過程的副本(由於I.I.D.假設),這在典型的聯邦設置中不是這樣的。為了了解FedAvg在統計異質環境中的性能,FedProx[65]最近被提出。FedProx對FedAvg方法做了一個小的修改,以確保在理論和實踐上的收斂性。FedProx也可以解釋為FedAvg的一個通用的、重新參數化的版本,它在考慮設備之間的系統異構性方面具有實際的影響。其他一些工作[56,123,131,132]也探索了在不同假設下的異質數據存在的收斂保證,例如凸性[123]或一致有界梯度[131]。也有一些啟發式方法旨在通過共享本地設備數據或一些服務器端代理數據來解決統計異質性問題[52,55,138]。然而,這些方法可能是不切實際的:除了在網絡帶寬上施加負擔之外,向服務器發送本地數據[55]違背了聯邦學習的密鑰隱私假設,並且向所有設備發送全局共享代理數據[52,138]需要努力仔細地生成或收集這樣的輔助數據。
2.4 Privacy
隱私問題常常促使人們需要在聯邦設置中將每個設備上的原始數據保存在本地。但是,作為訓練過程的一部分,共享其他信息(如模型更新)也可能泄漏敏感的用戶信息[8,17,39,78]。例如,Carlini等人[17]證明可以從一個基於用戶語言數據訓練的遞歸神經網絡中提取敏感的文本模式,例如特定的信用卡號碼。鑒於業內對隱私保護學習方法越來越感興趣,在第2.4.1節中,我們首先簡要回顧了以往在一般(分布式)機器學習環境中加強隱私的工作。然后,我們將在第2.4.2節中回顧最近專門為聯邦設置設計的隱私保護方法。
2.4.1 Privacy in Machine Learning
機器學習[如76]、系統[如4,11]和理論[如38,69]界對隱私保護學習進行了廣泛的研究。我們將簡要回顧三種主要的策略,其中包括用差分隱私來傳遞噪聲數據草圖、用同態加密來操作加密數據、以及安全的功能評估或多方計算。
在這些不同的隱私方法中,差分隱私[32、33、34]由於其強大的信息理論保證、算法簡單和相對較小的系統開銷而被最廣泛地使用。簡單地說,如果一個輸入元素的變化不會導致輸出分布的太大差異,那么隨機化機制是差異私有的;這意味着不能得出任何關於在學習過程中是否使用特定樣本的結論。這種樣本級的隱私可以在許多學習任務中實現[2,7,22,53,85,86]。對於基於梯度的學習方法,一種流行的方法是通過在每次迭代時隨機擾動中間輸出來應用差分隱私(例如,2,7,126)。在應用擾動(例如,通過高斯噪聲[2]、拉普拉斯噪聲[77]或二項式噪聲[3])之前,通常剪裁梯度以限制每個示例對整體更新的影響。差別隱私和模型精度之間存在着固有的權衡,因為增加更多的噪聲會帶來更大的隱私,但可能會嚴重影響精度。盡管差異隱私是機器學習中隱私的事實度量,但還有許多其他隱私定義,如k-匿名性[36]、d-存在性[81]和距離相關性[117],可能適用於不同的學習問題[118]。
除了差分隱私外,同態加密還可以通過計算加密數據來保護學習過程,盡管目前它應用於有限的設置,例如訓練線性模型[82]或僅涉及少數實體[133]。當敏感數據集分布在不同的數據所有者之間時,另一個自然的選擇是通過安全功能評估(SFE)或安全多方計算(SMC)來執行隱私保護學習。由此產生的協議可以使多個當事方協作計算商定的函數,而不泄漏任何當事方的輸入信息,除了可以從輸出中推斷出的信息外[例如23,43,95]。因此,雖然SMC不能保證信息泄漏的保護,但它可以與差異隱私相結合,以實現更強的隱私保證。然而,這些方法可能不適用於大規模機器學習場景,因為它們會帶來大量額外的通信和計算成本。此外,需要為目標學習算法中的每個操作仔細設計和實現SMC協議[25,79]。我們將感興趣的讀者推薦到[13,97]來更全面地回顧基於同態加密和SMC的方法。
2.4.2 Privacy in Federated Learning
聯邦設置對現有的隱私保護算法提出了新的挑戰。除了提供嚴格的隱私保證外,還需要開發計算成本低、通信效率高、能夠容忍掉線設備的方法,而所有這些都不會過度損害准確性。盡管聯邦學習中有各種各樣的隱私定義[8,17,41,64,76,113],但通常它們可以分為兩類:全局隱私和局部隱私。如圖6所示,全局隱私要求在每一輪生成的模型更新對中央服務器以外的所有不受信任的第三方都是私有的,而本地隱私進一步要求更新對服務器也是私有的。
當前旨在提高聯邦學習隱私的工作通常建立在以前的經典密碼協議上,如SMC[10,42]和差分隱私[3,8,41,76]。Bonawitz等人[10]引入一個SMC協議來保護單個模型的更新。中心服務器無法看到任何本地更新,但仍可以在每輪中觀察精確的聚合結果。SMC是一種無損的方法,它可以保持原始的准確性,並且有很高的隱私保證。然而,由此產生的方法會產生顯著的額外通信成本。其他的工作[41,76]將差異隱私應用於聯邦學習,並提供全局差異隱私。這些方法有許多影響通信和准確性的超參數,必須仔細選擇,盡管后續工作[113]提出了自適應梯度剪裁策略來幫助緩解這一問題。在需要加強隱私保護的情況下,Bhowmick等人[8]通過限制潛在對手的權力,引入放松版的本地隱私。它比全局隱私提供了更強的隱私保證,並且比嚴格的本地隱私具有更好的模型性能。Li等人[64]提出了元學習環境下的局部差異私有算法,該算法可以應用於具有個性化的聯邦學習,同時在凸環境下提供可證明的學習保證。此外,差分隱私可以與模型壓縮技術相結合,以減少通信,同時獲得隱私利益[3]。
3 Future Directions
聯邦學習是一個活躍和持續的研究領域。盡管最近的工作已經開始處理第2節討論的挑戰,但仍有一些關鍵的開放方向有待探索。在本節中,我們簡要概述了圍繞先前討論的挑戰(昂貴的通信、系統異構性、統計異質性和隱私問題)的一些有希望的研究方向,並介紹了有關聯邦環境中的產品化和基准測試等問題的其他挑戰。
- 極端的通訊方案:在聯邦學習中,有多少交流是必要的,還有待觀察。事實上,眾所周知,機器學習的優化方法可以容忍精度的不足;這個錯誤實際上有助於泛化[129]。雖然在傳統的數據中心環境中已經探索了單點或分而治之的通信方案[73,137],但在大規模或統計異構網絡中,這些方法的行為並沒有得到很好的理解。類似地,最近為聯邦設置提出了一次/幾次試探法[44,45,134],但尚未從理論上進行分析或按比例進行評估。
- 通信降低和Pareto frontier:我們討論了在聯邦訓練中減少通信的幾種方法,如局部更新和模型壓縮。為了創建一個真實的聯邦學習系統,了解這些技術是如何相互組合的,並且系統地分析每種方法的准確性和通信之間的權衡是很重要的。特別是,最有用的技術將展示Pareto frontier的改進,在相同的通信預算下,在理想情況下,在廣泛的通信/精度剖面上,實現比任何其他方法更高的精度。為了有效地進行神經網絡推理[如9],已經進行了類似的綜合分析,並且為了以有意義的方式比較用於聯邦學習的通信簡化技術是必要的。
- 新的異步模型:如第2.2.1節所述,分布式優化中最常研究的兩種通信方案是批量同步方法和異步方法(假設延遲是有界的)。這些方案在數據中心設置中更為實際,其中工作節點通常專用於工作負載,即,它們准備在“推送”上一個作業的結果后立即從中心節點“拉取”下一個作業。相比之下,在聯邦網絡中,每個設備通常不被分配給手頭的任務,並且大多數設備在任何給定的迭代中都不活動。因此,值得研究這種更現實的以設備為中心的通信方案的效果,其中每個設備可以決定何時“喚醒”,並以事件觸發的方式與中央服務器交互。
-
異質性診斷:最近的研究旨在通過諸如局部差異性(定義見[65]中的聯邦學習背景,並用於諸如[100,116,130]等工作中的其他目的)和earth mover's distance (EMD)[138]等指標量化統計異質性。然而,在訓練發生之前,這些度量不能通過聯邦網絡輕松計算這些度量的重要性激發了以下開放性問題:(i)是否存在簡單的診斷以快速確定聯邦網絡中的異質性水平?(ii)是否可以開發類似的診斷來量化與系統相關的異質性的數量?(iii)是否可以利用當前或新的異質性定義來進一步改進聯邦優化方法的收斂性?
-
細微的隱私限制:第2.4.2節中概述的隱私定義涵蓋了與網絡中所有設備相關的本地或全球級別的隱私。然而,在實踐中,可能有必要在更細粒度級別上定義隱私,因為隱私約束可能在設備之間或甚至在單個設備上的數據點之間有所不同。例如,Li等人[64]最近提出了樣本特定(相對於用戶特定)的隱私保證,從而提供了一種較弱的隱私形式,以換取更精確的模型。開發處理混合(設備特定或樣本特定)隱私限制的方法是未來工作的一個有趣和持續的方向。
-
超越監督學習:重要的是要注意到,迄今為止討論的方法都是隨着監督學習的任務而發展起來的,即他們假設聯邦網絡中的所有數據都存在標簽。實際上,在實際的聯邦網絡中生成的許多數據可能是未標記或弱標記的。此外,目前的問題可能不是將模型與(1)中所示的數據擬合,而是執行一些探索性數據分析、確定聚合統計數據或運行更復雜的任務,如強化學習。在聯邦網絡中解決監督學習以外的問題可能需要解決可伸縮性、異構性和隱私性方面的類似挑戰。
-
產品性聯邦學習:除了本文討論的主要挑戰之外,在產品環境中運行聯邦學習時還需要考慮一些實際問題。尤其是概念漂移(當底層數據生成模型隨時間變化時);日變化(當設備在一天或一周的不同時間表現出不同的行為時)[35];冷啟動問題(當新設備進入網絡時)等問題必須小心處理。我們將讀者推薦到[11],這篇文章討論了產品性聯邦學習系統中存在的一些與實際系統相關的問題。
-
基准:最后,由於聯邦學習是一個新興的領域,我們正處於一個關鍵時刻,以塑造這一領域的發展,並確保它們以現實世界的環境、假設和數據集為基礎。對於更廣泛的研究界來說,進一步建立在現有的實現和基准工具上,如LEAF[16]和Tensorflow Federated[1]是至關重要的,以促進經驗結果的可重復性和聯邦學習的新解決方案的傳播。
4 Conclusion
在本文中,我們概述了聯邦學習,這是一種在分布式網絡邊緣訓練統計模型的學習范式。與傳統的分布式數據中心計算和經典的隱私保護學習相比,我們討論了聯邦學習的獨特性質和相關的挑戰。我們提供了一個關於經典結果的廣泛調查,以及最近專門針對聯邦設置的工作。最后,我們概述了一些值得進一步研究的開放性問題。為這些問題提供解決方案將需要廣泛的研究團體跨學科的努力。