https://mp.weixin.qq.com/s/W7GsdPZtIdIY75t-9-G7Pg
關於機器學習,很多人都強調算法而忽視了基礎架構的作用,一種看似“高大上”的算法集成到實際環境中,也可能用起來“水土不服”,原因就在於基礎架構的支持力度不夠。所以,基礎架構和算法同等重要,這里我們從AI平台基礎架構中至關重要的存儲架構,談一談AI平台的架構設計, 供相關人員參考。
目前,在政策和市場的雙重驅動下,我國人工智能發展獲得長足進步,“言必談AI”已經成為各個科技公司技術峰會和企業間交流必不可少的話題。各家企業希望借力AI加速自身業務的發展和創新,通過AI幫助企業在數字化轉型的浪潮中取得先發優勢。
夢想回歸現實,話語落到行動,因而,搭建自己的AI平台成為了最近兩年很多企業的重點戰略規划。
搭建一個AI平台,在哪里搭建?這是企業首先需要考慮的問題。是署在本地,還是部署在雲端?這需要根據自身業務特點來選擇,不過,無論你的AI平台在哪個地方,其基本流程都可分為四個步驟:
❶ 把原始數據從各種數據源導入到數據湖,進行數據拆分、清洗等數據預處理工作;
❷ 把數據交給AI訓練集群通過機器學習神經算法框架進行訓練;
❸ 訓練完成后就可以把得到的最優參數設置模型,進行人工智能應用的部署;
❹ 最后把機器學習的數據進行歸檔。
有人說人工智能應用構建最重要的是算法框架。這種說法筆者並不苟同,框架或平台盡管重要,但也可能因行業發展流行或衰退,所以,AI平台的構建並不能只懂算法,因為算法實現不等於問題解決,問題解決不等於現場問題解決。
而追求高可用、高性能、靈活易用的基礎架構才是永恆不變的。Google就是依靠強大的基礎架構能力讓 AI 研究領先於業界,因為基礎架構知識是AI工程師進行高效團隊協作的共同語言。工業界的發展讓深度學習、自動機器學習成為可能,未來將會有更多人關注底層的架構與設計。
因此,今天的主題就是淺析對AI平台基礎架構中至關重要的存儲架構需求▼:
如果把機器學習訓練集群中的GPU比作飛馳的高鐵列車,那么一個優秀的AI平台數據管道就像高鐵網絡中的鐵軌。當你考慮如何從你的AI部署中獲取最佳結果時,數據管道或許是最重要的考量點。
▒ 我們知道企業級存儲主要有三種模式:基於數據塊的SAN存儲,基於文件的NAS存儲和對象存儲。首先SAN存儲因為自身無法實現跨不同主機共享數據,不適合直接用於AI平台,可以排除;其次對象存儲達不到AI平台數據管道所需的高性能也可以排除,所以文件存儲是一個不錯的選擇,但有些因素必須考慮▼:
➣ 選擇何種文件系統
• 橫向擴展架構例如Lustre 或者 GPFS;
• HDFS,通用的大數據文件系統;
• NFS,最廣泛部署的共享文件系統。
➣ 能夠存放各種來源的結構化和非結構化數據,而不犧牲性能
• 日志和傳感器數據;
• 數據庫數據:包括關系型數據庫和非關系型數據庫;
• 郵件日志;
• 個人主目錄;
• 其他數據類型。
➣ 同時滿足隨機小IO和順序大IO的性能
• 從上面列舉的數據來源可以看到一些數據源產生的是隨機小IO,而有些數據源是順序大IO;
• 文件系統必須能夠在兩者之間平衡性能。
➣ 最大性能和數據移動的能力:
• 文件系統的最大性能;
• 能夠高效的移動數據。
➣ 數據生命周期的自動化
• 自動分層智能決定不同數據集的存儲位置,比如高性能層,歸檔層等;
• 同時滿足數據分類和過濾過程的實時性能;
➣支持最新的存儲和內存介質如NVMe和SCM等,從而在性能和延遲上獲得數量級的提升
你的AI平台選擇的文件系統和數據架構至少應該滿足以上條件,這對AI平台的長久發展非常重要。
單一命名空間
AI數據集能夠輕易地增長到很大規模,為適應這種數據大規模增長,需要一個可以橫向擴展的單一命名空間文件系統,並且能夠隨着客戶端訓練節點的擴展而線性提升存儲性能。
▒ 客戶端訪問這個單一命名空間有不同的方式,不同方式意味着不同的性能要求,一種訓練模型為異步訓練,數據集被靜態地分布於訓練集群節點,每次訓練只有一個節點訪問命名空間中的一部分特定數據。
戴爾易安信R940xa和R840服務器
專為AI平台優化設計
另一種訓練模型為同步進行,數據集相互關聯緊耦合在一起,需要被訓練集群中所有節點同時訪問。這種情形明顯需要更高的文件系統性能。
還有一種多層神經網絡訓練模型,每個訓練節點有序地從文件系統中讀出數據集進行訓練,這樣就導致整個數據集不斷地被反復讀取,一個節點讀一次,不斷地換手。
➣ 除了上述幾點外,在選擇AI平台的文件系統存儲時還有一些其他因素也需要考慮,包括:
• 易於管理;
• 擴展簡單;
• 支持多租戶和存儲QoS;
• 支持客戶端緩存;
• 產品技術持續更新能力。
你會選擇何種數據架構?
相信以上我們所討論的標准能夠幫助你選擇一個適合AI需求的文件系統和數據架構,如果還是不清楚也沒有關系。戴爾易安信的AI解決方案滿足上述所有要求,包括Lustre橫向擴展高性能存儲解決方案,原生支持HDFS的ISilon橫向擴展NAS 解決方案,自動分層的橫向擴展Fluid NFS解決方案。
戴爾易安信Lustre橫向擴展高性能存儲架構
戴爾易安信橫向擴展高性能文件系統
在這些可選項中,每一種方案都在國內的AI研究機構和相關企業已有落地的案例參考。正在籌划搭建自己的AI平台的企業機構,可以咨詢戴爾易安信專業的人工智能解決方案專家了解各方案的優劣和特點,從而根據自己的建設需要,從長遠考慮選擇最適合自己的AI平台。
未來已來,戴爾易安信端到端解決方案為企業的AI平台建設全方位助力,加速組織數字化轉型。