OpenPAI：大規模人工智能集群管理平台介紹及任務提交指南

本文轉載自查看原文 2018-11-09 13:01 1418 Tensorflow/ OpenPAI/ AI/ 人工智能/ 人工智能平台

產品淵源：

隨着人工智能技術的快速發展，各種深度學習框架層出不窮，為了提高效率，更好地讓人工智能快速落地，很多企業都很關注深度學習訓練的平台化問題。例如，如何提升GPU等硬件資源的利用率？如何節省硬件投入成本？如何支持算法工程師更方便的應用各類深度學習技術，從繁雜的環境運維等工作中解脫出來？等等。

產品定位：

為深度學習提供一個深度定制和優化的人工智能集群管理平台，讓人工智能堆棧變得簡單、快速、可擴展。

產品優勢：

● 為深度學習量身定做，可擴展支撐更多AI和大數據框架

通過創新的PAI運行環境支持，幾乎所有深度學習框架如CNTK、TensorFlow、PyTorch等無需修改即可運行；其基於Docker的架構則讓用戶可以方便地擴展更多AI與大數據框架。

● 容器與微服務化，讓AI流水線實現DevOps

OpenPAI 100%基於微服務架構，讓AI平台以及開發便於實現DevOps的開發運維模式。

● 支持GPU多租，可統籌集群資源調度與服務管理能力

在深度學習負載下，GPU逐漸成為資源調度的一等公民，OpenPAI提供了針對GPU優化的調度算法，豐富的端口管理，支持Virtual Cluster多租機制，可通過Launcher Server為服務作業的運行保駕護航。

● 提供豐富的運營、監控、調試功能，降低運維復雜度

PAI為運營人員提供了硬件、服務、作業的多級監控，同時開發者還可以通過日志、SSH等方便調試作業。

OpenPAI的架構如下圖所示，用戶通過Web Portal調用REST Server的API提交作業（Job）和監控集群，其它第三方工具也可通過該API進行任務管理。隨后Web Portal與Launcher交互，以執行各種作業，再由Launcher Server處理作業請求並將其提交至Hadoop YARN進行資源分配與調度。可以看到，OpenPAI給YARN添加了GPU支持，使其能將GPU作為可計算資源調度，助力深度學習。其中，YARN負責作業的管理，其它靜態資源（下圖藍色方框所示）則由Kubernetes進行管理。