OpenShift AI/ML入門


周末看到一個很好的片子,非常適合我這種AI/ML的小白用戶,便於比較快速的弄清楚這個領域涉及的內容和OpenShift的定位。

這篇文章就把主要的關鍵點和自己的理解記錄如下,供自己參考。

首先,在AI的領域中,模型只是很小的一塊,需要依賴於外部很多的技術

 

 

機器學習各個階段的分工和角色划分

 

 1.模型和驗證(數據科學家)

 技術領域中涉及的模塊

 

 

整個模塊中,數據科學家的關注點(標記淺紅色的部分)

 

 

這個過程是一個迭代的過程

 

 

 Jupyter在這個過程中的定位

 

 

這個過程的核心瓶頸

 

 

 在模型開始階段,因為涉及到多租戶方式使用,需要自服務,需要可以重復和共享的環境,需要可以重復共享的經驗,以及如何利用GPU資源提速。

在生產階段,更快的發布和擴展,如何利用GPU資源提速。

 

 2.環境建立和共享

開始階段,自然而然的變成容器化模式,進而形成多租戶的Jupyter as Service

 

 3.模型部署和運行

 而在投產階段,更快速的形成鏡像進行運行和Scale out

 

 

 

 OpenDataHub項目覆蓋的內容

OpenShift的OpenDataHub項目就是利用這些開源的技術和項目在底層平台上利用Operator形成了自動化的部署和生命周期的管理。

OpenDataHub的架構

目前,版本是1.1.0,目前支持的項目如下,我在Lab環境中嘗試安裝了JupyterHub和Spark Cluster, 因為消耗資源比較多所以實驗環境被停止了 :(

 

 

 

總體說來,主要價值點在:

  • 數據的供應:包括數據存儲,數據移動,數據響應
  •  AI/ML框架支持:各類開源框架基於Operator的部署
  • GPU算力支持:支持MIG, 資源共享和資源的控制
  • 網絡優化:SR-IOV的高性能

總體來說,可以參考這張圖

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM