KubeFlow-Pipeline及Argo實現原理速析

本文轉載自查看原文 2020-06-12 11:14 1078 KubeFlow-Pipeline/ 容器/ Argo/ 開源/ 存儲/ 程序員之家

Argo是一個開源原生容器工作流引擎用於在Kubernetes上開發和運行應用程序。Argo Workflow流程引擎，可以編排容器流程來執行業務邏輯，在20年4月8日進入CNCF孵化器組。

而KubeFlow的Pipeline子項目，由Google開源，其全面依賴Argo作為底層實現，並增強持久層來補充流程管理能力，同時通過Python-SDK來簡化流程的編寫。

一. Argo流程引擎

Argo的步驟間可以傳遞信息，即下一步（容器）可以獲取上一步（容器）的結果。結果傳遞有2種：

1. 文件：上一步容器新生成的文件，會直接出現在下一步容器里面。

2. 信息：上一步的執行結果信息（如某文件內容），下一步也可以拿到。

下面我們就來解讀一下，Argo怎么實現“信息”在容器間的傳遞的，以及它和其他的流程引擎實現傳遞的區別。

1.1文件怎么從上一個容器跑到下一個容器里的？

Argo流程，可以指定2個步驟之間，傳遞結果文件（Artifact）。即假設流程為：A->B，那么A容器跑完，B容器可以取得上一個容器的輸出文件。

如下：A容器生成一個 /tmp/hello_world.txt 文件，Argo將這個文件，放到了B容器里面，並重命名為 /tmp/message文件。

注意：流程上的每個步驟，都對應執行一個容器。在A跑完后容器就退出了，然后才跑的B（這時候已經沒有A容器在運行了）。

所以Argo怎么把一個文件從A容器“拷貝”到B容器里面的？

1.1.1容器間通過共享存儲？（NO）

一般容器間共享文件，首先想到的都是：咱使用共享存儲呀，大家都掛載同一個PVC不就行了。

確實共享存儲可以實現容器共享文件，但是這里Argo可以：

（1）任意指定文件傳遞。（2）傳遞后文件可以改名字。

這2個是共享Volume做不到的，畢竟容器掛載目錄得提前設定好，然后文件名大家看到的也是一樣的。所以顯然文件傳遞，不是通過共享PVC掛載實現的。

（Ps：不過Argo也在考慮這種實現方式，畢竟共享目錄不需要任何額外IO，透傳效率更高。見：https://github.com/argoproj/argo/issues/1349）

1.1.2通過管理面中轉？（YES）

沒有共享目錄，那中轉文件，只能是通過先取出來，再塞回去的方式嘍。實際上Argo也確實這么做的，只是實現上還有些約束。

（1）“臨時中轉倉庫”需要引入第三方軟件（Minio）

（2）文件不能太大

（3）需要在用戶容器側，增加“代理”幫忙上傳&下載文件。

1.1.3中轉文件具體實現（docker cp）

現在我們打開Argo看看具體怎么實現的。因為你要取一個容器里面的文件，或者把一個文件放入一個容器，也不容易實現呢。

（1）小滑頭Argo居給用戶容器設置了一個SideCar容器，通過這個SideCar去讀取用戶的文件，然后上傳到臨時倉庫。

（2）一個Pod里面的兩個Container，文件系統也是獨立的，並不能直接取到另一個Container的文件。所以Sidecar容器為了取另一個容器里的文件，又把主機上面的docker.sock掛載進來了。這樣就相當於拿到了主機Root權限，可以任意cp主機上任意容器里面的文件。

事實上，Sidecar里面取文件的實現是：

 
          docker cp -a 023ce:/tmp/hello_world.txt - | gzip > /argo/outputs/artifacts/hello-art.tgz 
         

感覺稍微有點暴力。

1.1.4中轉實現的其他方式

實際上，通過sidecar容器提權到root權限，然后從用戶的容器里面copy任意文件（即 docker cp命令），只是Argo默認的實現。畢竟它自己也發現這樣做安全上有點說不過去。

所以呢，它也留了其他方式去copy用戶容器里面的文件。比如：kubectl 也是可以cp容器里面的文件的嘛。其他方式可參見：

https://github.com/argoproj/argo/blob/master/docs/workflow-executors.md

1.2 下一步容器怎么拿到上一步容器的結果？

Argo流程，2個步驟之間，除了傳遞文件，還可以傳遞結果信息（Information）。如：A->B，那么A容器跑完，B容器可以取得上一個容器的一些Information（不是整個文件）。

一般流程引擎透傳信息，都是中轉：

不過顯然Argo自己沒有存儲Information的臨時倉庫，所以它得找個地方記錄這些臨時待中轉的information（雖然Argo找了Minio這個對象存儲用來暫存中轉文件，但是顯然這貨只能存文件，沒有存Metadata元數據功能）。這里Argo又找了Pod里面的Annotation字段，當做臨時中轉倉庫。先把信息記這里，下一步容器想要，就來這里取。

相信這里應該是有更好的實現方式的，這種把信息記錄到Annotation的做法，約束比較大的（特別是ETCD的單個對象不能超過1M大小）。

可以考慮使用單獨的Configmap來中轉也可以。

二. KubeFlow-Pipeline項目

KubeFlow-Pipeline項目（簡稱KFP），是Kubeflow社區開源的一個工作流項目，用於管理、部署端到端的機器學習工作流。KFP提供了一個流程管理方案，方便將機器學習中的應用代碼按照流水線的方式編排部署，形成可重復的工作流。

2.1為什么要在Argo之上重新開發一套？

部署一套Argo很簡單，啟動一個K8s-Controller就行。可是部署一套Kubeflow-Pipeline系統就復雜多了，總共下來有8個組件。那是Argo什么地方不足，需要新開發一套KFP，並搞這么復雜呢？主要的原因還在於Argo是基於K8s雲原生這套理念，即ETCD充當“數據庫”來運行的，導致約束比較大。