摘要:近期,中科院上海葯物所、上海科技大學聯合華為雲醫療智能體團隊,在Science China Life Sciences 發表題為“Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches”的文章。
本文分享自華為雲社區《中科院上海葯物所/上海科技大學、華為雲聯合團隊發布個性化聯邦學習算法框架,賦能AI葯物研發》,作者: 華為雲頭條 。
文章來源:中國科學雜志社
葯物研發是一個漫長的過程,傳統的葯物研發需要投入大量的研發人員,並且花費十到十五年,數十億美元的研發經費才能使一個葯物走向上市。近些年來,隨着AI、大數據和雲計算等技術的發展,越來越多的制葯公司和科技巨頭把目光投到這一領域。然而AI葯物研發面臨着一系列困難和挑戰,AI模型需要大量的數據進行建模,而葯物研發數據的高壁壘、高成本、高機密性影響到了制葯公司數據貢獻的積極性。同時,數據孤島現象普遍存在,很多企業內部的數據都是量少而且高度有偏的,這給高質量的AI葯物研發模型帶來很大的挑戰。近年來新興的聯邦學習可以很好的解決這個問題。聯邦學習本質上是一種分布式機器學習技術,其目標是在保證數據隱私安全合規的基礎上,實現共同建模。在聯邦學習框架下,多家葯企之間無需共享數據,僅通過共享模型權重,來實現葯企之間協同訓練,在保證數據安全的同時彼此增強AI模型的效果。

近期,中科院上海葯物所、上海科技大學聯合華為雲醫療智能體團隊,在Science China Life Sciences 發表題為“Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches”的文章。聯合團隊使用三個任務來模擬跨數據孤島的聯合學習過程:基於化學結構進行葯物溶解度、激酶抑制活性和hERG心臟毒性的預測。這些數據涵蓋了不同的葯物化學空間、實驗測量方法、實驗條件和數據大小,代表真實世界中不同制葯公司的數據分布的差異。借此,來研究聯邦學習對打破數據孤島的意義,並從分析結果中發現,聯邦學習的效果均優於單獨數據來源的模型訓練。

接着,為進一步提升模型效果,聯合團隊引入了殘差全連接網絡(RFCN),通過利用AI自動建模工具AutoGenome1,對三個任務重新訓練以獲得更精確的模型骨架;另外,在聯邦模型參數整合策略中聯合團隊引入了個性化聯邦學習(FedAMP)2,為聯邦計算參與者訓練個性化模型,並且通過注意力消息傳遞機制加強具有相似數據分布的參與者之間的協同,使得數據貢獻越多、質量越好的參與方獲益也越大;在激酶抑制活性預測的性能對比我們可以看到,RFCN和FedAMP的引入,在葯物溶解度、激酶抑制活性和hERG心臟毒性預測這三個AI任務上,均優於傳統MLP和FedAvg方法。

近日,上海葯物所/上海科技大學和華為雲醫療智能體,聯合發布基於華為雲ModelArts平台的葯物聯邦學習服務,來幫助葯企和研究機構更加方便的使用葯物聯邦學習,通過簡單的四步操作,參與聯邦學習的用戶就可以便捷的實現聯邦訓練:第一步:盟主創建聯盟,定義聯邦任務,如葯物結構預測水溶解度;第二步:盟主邀請參與者加入聯邦,參與者同意加入;第三步:聯邦成員部署代理,配置聯邦運行環境;第四步:盟主啟動聯邦任務,開始聯邦作業訓練。

華為雲醫療智能體EIHealth基於華為雲AI昇騰集群服務、華為雲一站式AI開發平台ModelArts的強大AI能力,集成了醫葯領域眾多算法、工具、AI模型和自動化流水線,目標是打造一個全棧、開放、專業的醫療行業企業級AI研發平台。 更多信息請訪問 : https://www.huaweicloud.com/product/eihealth.html
參考文獻
1. Liu, D. et al. AutoGenome: An AutoML Tool for Genomic Research. bioRxiv 842526 (2019) doi:10.1101/842526.2. Huang, Y. et al. Personalized Cross-Silo Federated Learning on Non-IID Data. arXiv:2007.03797 [cs, stat] (2021).
