當今的AI仍然面臨兩個主要挑戰:
- 一是在大多數行業中,數據以孤立的孤島形式存在。
- 另一個是加強數據隱私和安全性。
我們為這些挑戰提出了一種可能的解決方案:安全的聯邦學習。
聯邦學習是一種新興的機器學習方案。與傳統的集中式機器學習不同,聯邦學習通過將訓練任務下放到用戶側,僅將訓練得到的模型參數結果發送給服務端,從而使數據保持在用戶本地,保證了用戶數據的隱私。此外,通過引入更多的用戶參與,聯邦學習可以整體上拓展訓練數據集,從而提升總體模型的質量。由於聯邦學習具有分布式、本地計算等特征,與區塊鏈所具有的去中心化、分布式計算等特征有諸多相似之處,因此更適合與區塊鏈相融合。此外,邊緣計算與物聯網技術的發展,也為聯邦學習與區塊鏈相融合在無線網絡場景中的部署奠定了基礎。然而,新技術的出現往往是一把“雙刃劍”,聯邦學習也不例外。聯邦學習面臨着一些挑戰。
- 首先是通信負載。聯邦學習需要將迭代的傳輸訓練參數上傳至服務器,參與用戶數目以及訓練迭代數的增加,會帶來大量的鏈路傳輸開銷。
- 其次是參與用戶的互信問題。由於聯邦學習的參與方來自不同的組織或機構,彼此之間缺少信任。如何在缺乏互信的場景下建立安全可靠的協作機制,是實際應用中亟待解決的問題。
- 此外,聯邦學習也面臨一些安全風險。一方面,參與方所提供的參數缺乏相應的質量驗證機制。惡意的參與用戶可能會提供虛假的模型參數來破壞學習過程。如果這些虛假參數未經驗證便聚合到整體模型中,會直接影響整體模型的質量,甚至會導致整個聯邦學習過程失效。另一方面,參數在傳輸以及存儲過程中的隱私性需要進一步保護加強。近期的一些研究表明,惡意的用戶可以依據聯邦學習梯度參數在每一輪中的差異,通過調整其輸人數據逼近真實梯度,從而推測出用戶的敏感數據。除了上述問題,聯邦學習中參與用戶的異構性、模型參數的聚合算法、用戶通信鏈路的可靠性等,都值得進一步深入研究。
4.激勵機制。 聯盟學習之間的不同組織,需要建立一個公平的平台和激勵機制。建立模型后,模型的性能將在實際應用中得到體現。 這個性能可以通過永久數據記錄機制(例如區塊鏈)進行記錄。提供更多數據的組織會更好,而模型的有效性取決於數據提供商對系統的貢獻。 這些模型的有效性被分配給各方基於聯合機制,並繼續激勵更多組織加入數據聯合。
Applications
作為一種創新的建模機制,它可以在不損害數據保密性和安全性的情況下,針對多方數據訓練統一模型,因此聯邦學習在銷售,金融和許多其他行業中很有希望,因為這些行業中的數據無法直接匯總用於訓練 由於諸如知識產權,隱私保護和數據安全之類的因素而導致的機器學習模型。
以智能零售為例。其目的是使用機器學習技術為客戶提供個性化服務,主要包括產品推薦和銷售服務。智能零售業務涉及的數據特征主要包括用戶購買力,用戶個人喜好和產品特征。在實際應用中,這三個數據特征可能分散在三個不同的部門或企業中。例如,用戶的購買力可以從她的銀行存款中推斷出來,而她的個人喜好可以從她的社交網絡中分析出來,而產品的特征則由電子商店記錄下來。在這種情況下,我們面臨兩個問題。首先,為了保護數據隱私和數據安全,很難打破銀行,社交網站和電子購物網站之間的數據障礙。結果,數據不能直接聚合以訓練模型。其次,存儲在三方中的數據通常是異構的,並且傳統的機器學習模型無法直接在異構數據上工作。目前,這些問題尚未通過傳統的機器學習方法得到有效解決,這阻礙了人工智能在更多領域的普及和應用。
聯邦學習和遷移學習是解決這些問題的關鍵。首先,通過利用聯邦學習的特征,我們可以為三方構建機器學習模型而無需導出企業數據,不僅可以充分保護數據隱私和數據安全,還可以為客戶提供個性化和針對性的服務,從而實現互惠互利。同時,我們可以利用轉移學習來解決數據異質性問題,並突破傳統人工智能技術的局限性。因此,聯邦學習為我們構建大數據,人工智能的跨企業,跨數據和跨域生態圈提供了良好的技術支持。
可以使用聯邦學習框架進行多方數據庫查詢而無需公開數據。例如,假設在金融應用程序中,我們有興趣檢測多方借款,這是銀行業的主要風險因素。當某些用戶惡意從一家銀行借款以支付另一家銀行的貸款時,就會發生這種情況。多方借款對金融穩定構成威脅,因為大量此類違法行為可能導致整個金融體系崩潰。為了找到這樣的用戶而不會在銀行A和銀行B之間彼此暴露用戶列表,我們可以利用聯邦學習框架。特別是,我們可以使用聯邦學習的加密機制,對各方的用戶列表進行加密,然后在聯合身份驗證中獲取加密列表的交集。最終結果的解密給出了多方借款人的列表,而沒有將其他“好”用戶暴露給另一方。正如我們將在下面看到的,此操作對應於垂直聯邦學習框架。
智能醫療保健是我們預計將受益於聯邦學習技術的興起的另一個領域。諸如疾病症狀,基因序列,醫學報告之類的醫學數據非常敏感和私密,但是醫學數據很難收集,並且存在於孤立的醫學中心和醫院中。數據源不足和標簽不足導致機器學習模型的性能不盡人意,這成為當前智能醫療保健的瓶頸。我們設想,如果所有醫療機構聯合起來並共享其數據以形成一個大型醫療數據集,那么在該大型醫療數據集上訓練的機器學習模型的性能將得到顯着提高。聯邦學習與遷移學習相結合是實現此願景的主要方法。可以應用轉移學習來填補缺失的標簽,從而擴大可用數據的規模,並進一步提高訓練模型的性能。因此,聯邦遷移學習將在智能醫療保健的發展中發揮關鍵作用,並且可能將人類保健提升到一個全新的水平.
相關鏈接:
1.https://zhuanlan.zhihu.com/p/127319831
2.https://www.zhihu.com/question/329518273
3.https://www.zuozuovera.com/archives/1565/
4.https://zhuanlan.zhihu.com/p/88886843(對抗攻擊簡介)
5.https://www.jiqizhixin.com/articles/2018-03-05-4(對抗攻擊的12種攻擊方法和15種防御方法)
6.https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650738224&idx=1&sn=dd3a9bc5b71cdc23bf92fd8816fd68f0&chksm=871aca4eb06d43585821885b7a769b7d2f9b07fbdabbfc4852c77355102af645fcff53c382c0&scene=21#wechat_redirect(Goodfellow等人提出新一代對抗樣本)
7.https://zhuanlan.zhihu.com/p/33562407(ICLR 2018七篇對抗樣本防御論文被新研究攻破)
8.https://www.zybuluo.com/wuxin1994/note/888889 (發現的新大陸)