周末看到一個很好的片子,非常適合我這種AI/ML的小白用戶,便於比較快速的弄清楚這個領域涉及的內容和OpenShift的定位。
這篇文章就把主要的關鍵點和自己的理解記錄如下,供自己參考。
首先,在AI的領域中,模型只是很小的一塊,需要依賴於外部很多的技術
機器學習各個階段的分工和角色划分
1.模型和驗證(數據科學家)
技術領域中涉及的模塊
整個模塊中,數據科學家的關注點(標記淺紅色的部分)
這個過程是一個迭代的過程
Jupyter在這個過程中的定位
這個過程的核心瓶頸
在模型開始階段,因為涉及到多租戶方式使用,需要自服務,需要可以重復和共享的環境,需要可以重復共享的經驗,以及如何利用GPU資源提速。
在生產階段,更快的發布和擴展,如何利用GPU資源提速。
2.環境建立和共享
開始階段,自然而然的變成容器化模式,進而形成多租戶的Jupyter as Service
3.模型部署和運行
而在投產階段,更快速的形成鏡像進行運行和Scale out
OpenDataHub項目覆蓋的內容
OpenShift的OpenDataHub項目就是利用這些開源的技術和項目在底層平台上利用Operator形成了自動化的部署和生命周期的管理。
OpenDataHub的架構
目前,版本是1.1.0,目前支持的項目如下,我在Lab環境中嘗試安裝了JupyterHub和Spark Cluster, 因為消耗資源比較多所以實驗環境被停止了 :(
總體說來,主要價值點在:
- 數據的供應:包括數據存儲,數據移動,數據響應
- AI/ML框架支持:各類開源框架基於Operator的部署
- GPU算力支持:支持MIG, 資源共享和資源的控制
- 網絡優化:SR-IOV的高性能
總體來說,可以參考這張圖