如何在 Kubernetes 集群中玩轉 Fluid + JuiceFS


作者簡介:
呂冬冬,雲知聲超算平台架構師, 負責大規模分布式機器學習平台架構設計與功能研發,負責深度學習算法應用的優化與 AI 模型加速。研究領域包括高性能計算、分布式文件存儲、分布式緩存等。
朱唯唯,Juicedata 全棧工程師,負責 JuiceFS CSI Driver 的開發和維護,負責 JuiceFS 在雲原生領域的發展。

雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 存儲,並且在早期已經積累了豐富的 Fluid 使用經驗。近期,雲知聲團隊與 Juicedata 團隊合作開發了 Fluid JuiceFS 加速引擎,使用戶能夠更好地在 Kubernetes 環境中使用 JuiceFS 緩存管理能力。本篇文章講解如何在 Kubernetes 集群中玩轉 Fluid + JuiceFS。

背景介紹

Fluid 簡介

CNCF Fluid 是一個開源的 Kubernetes 原生的分布式數據集編排和加速引擎,主要服務於雲原生場景下的數據密集型應用,例如大數據應用、AI 應用等,關於 Fluid 更多信息可以參考地址

Fluid 不是全存儲加速和管理,而是應用使用的數據集加速和管理。Fluid 提供了一種更加雲原生的方式對數據集進行管理,通過緩存加速引擎實現將底層存儲系統的數據 cache 在計算節點的內存或者硬盤上,解決了計算與存儲分離架構中由於數據傳輸帶寬限制以及底層存儲帶寬與 IOPS 能力限制等問題,導致的 IO 效率不高等問題。Fluid 提供緩存數據調度能力,緩存被納入 kubernetes 擴展資源,kubernetes 在進行任務的調度的時候,能夠參考緩存進行調度策略的分配。

Fluid 有 2個重要的概念:Dataset 與 Runtime

  • Dataset: 數據集是邏輯上相關的一組數據的集合,一致的文件特性,會被同一運算引擎使用。
  • Runtime: 實現數據集安全性,版本管理和數據加速等能力的執行引擎的接口,定義了一系列生命周期的方法。

Fluid 的 Runtime 定義了標准化的接口,Cache Runtime Engine 可以對接多種緩存引擎,提供了用戶更靈活的選擇,用戶能夠針對不同的場景與需求,充分利用緩存引擎加速相應的場景應用。

JuiceFS 簡介

JuiceFS 是一個面向雲環境設計的高性能開源分布式文件系統,完全兼容 POSIX、HDFS、S3 接口,適用於大數據、AI 模型訓練、Kubernetes 共享存儲、海量數據歸檔管理等場景。

使用 JuiceFS 存儲數據,數據本身會被持久化在對象存儲(例如,Amazon S3),而數據所對應的元數據可以根據場景需求被持久化在 Redis、MySQL、TiKV 等多種數據庫引擎中。JuiceFS 客戶端具有數據緩存能力,當通過 JuiceFS 客戶端讀取數據時,這些數據將會智能地緩存到應用配置的本地緩存路徑(可以是內存,也可以是磁盤),同時元數據也會緩存到客戶端節點本地內存中。

對於 AI 模型訓練場景來說,第一個 epoch 完成之后后續的計算都可以直接從緩存中獲取訓練數據,極大地提升了訓練效率。JuiceFS 也具有預讀、並發讀取數據的能力,在 AI 訓練場景能夠保證每個 mini-batch 的生成效率,提前准備好數據。數據預熱能夠提前將公有雲上的數據換到到本地節點,對於 AI 訓練場景能夠保證申請完 GPU 資源后,即有預熱的數據進行運算,為寶貴的 GPU 使用節省了時間。

為什么使用 JuiceFSRuntime

雲知聲 Atlas 超算平台作為底層基礎架構,支持着公司在 AI 各個領域的模型訓練與推理服務的開展。雲知聲很早就開始布局建設業界領先的 GPU/CPU 異構 Atlas 計算平台和分布式文件存儲系統,該計算集群可為 AI 計算提供高性能計算和海量數據的存儲訪問能力。雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 存儲,進行了一系列 POC 測試,在數據可靠性與業務場景的適配,都滿足我們目前的需求。

在訓練場景我們充分利用 JuiceFS 客戶端的緩存能力,為 AI 模型訓練做數據加速,但是在使用過程中發現了一些問題:

  • 訓練 Pod 通過 hostpath 掛載,需要在每個計算節點掛載 JuiceFS 客戶端,掛載需要管理員操作,掛載參數固定,不夠靈活。
  • 用戶無法對計算節點客戶端的緩存管理,緩存無法手動清理與擴容。
  • 緩存數據集無法像 Kubernetes 自定義資源一樣能夠被 kubernetes 進行調度。

由於我們在生產環境已經積累了一定的 Fluid 使用經驗,所以我們與 Juicedata 團隊合作設計並開發了 JuiceFSRuntime,將 Fluid 對數據編排與管理能力和 JuiceFS 的緩存能力結合起來。

什么是 Fluid + JuiceFS(JuiceFSRuntime)

JuiceFSRuntime 是 Fluid 自定義的一種 Runtime,其中可以指定 JuiceFS 的 worker、fuse 鏡像以及相應的緩存參數。其構建方式與 Fluid 其他 Runtime 一致,即通過 CRD 的方式構建,JuiceFSRuntime Controller 監聽 JuiceFSRuntime 資源,實現緩存 Pod 的管理。

JuiceFSRuntime 支持數據親和性調度(nodeAffinity),選擇合適的緩存節點,支持 Fuse pod 懶啟動,支持用戶以 POSIX 接口訪問數據,目前只支持一個掛載點。

其架構圖如上圖所示,JuiceFSRuntime 由 Fuse Pod 與 Worker Pod 組成。Worker pod 主要實現緩存的管理,如 Runtime 退出時的緩存清理;Fuse pod 主要負責 JuiceFS 客戶端的參數設置及掛載。

如何使用 JuiceFSRunime

下面來看看如何使用 JuiceFSRuntime 進行緩存加速。

前期准備

要使用 JuiceFSRuntime 首先需要准備元數據引擎和對象存儲。

構建元數據引擎

用戶可以很容易的在雲計算平台購買到各種配置的雲 Redis 數據庫,如果是評估測試使用可以使用 Docker 快速的在服務器上運行一個 Redis 數據庫實例:

$ sudo docker run -d --name redis \
	-v redis-data:/data \
	-p 6379:6379 \
	--restart unless-stopped \
	redis redis-server --appendonly yes

准備對象存儲

和 Redis 數據庫一樣,幾乎所有的公有雲計算平台都提供對象存儲服務。因為 JuiceFS 支持幾乎所有主流平台的對象存儲服務,用戶可以結合自己的情況進行部署。

這里是評估測試應該使用的是 Dokcer 運行的 minio 實例:

$ $ sudo docker run -d --name minio \
    -p 9000:9000 \
    -p 9900:9900 \
    -v $PWD/minio-data:/data \
    --restart unless-stopped \
    minio/minio server /data --console-address ":9900"

對象存儲初始的 Access Key 和 Secret Key 均為 minioadmin。

下載並安裝 Fluid

按照文檔步驟安裝 Fluid,在 Fluid 的安裝 chart values.yaml 中將 runtime.juicefs.enable 設置為 true,並安裝 Fluid。確保 Fluid 集群正常運行:

kubectl get po -n fluid-system
NAME                                         READY   STATUS              RESTARTS   AGE
csi-nodeplugin-fluid-ctc4l                   2/2     Running             0          113s
csi-nodeplugin-fluid-k7cqt                   2/2     Running             0          113s
csi-nodeplugin-fluid-x9dfd                   2/2     Running             0          113s
dataset-controller-57ddd56b54-9vd86          1/1     Running             0          113s
fluid-webhook-84467465f8-t65mr               1/1     Running             0          113s
juicefsruntime-controller-56df96b75f-qzq8x   1/1     Running             0          113s

確保 juicefsruntime-controllerdataset-controllerfluid-webhookpod 以及若干 csi-nodeplugin pod 正常運行。

創建 Dataset

在使用 JuiceFS 之前,需要提供元數據服務(如 redis)及對象存儲服務(如 minio)的參數,並創建對應的 secret:

kubectl create secret generic jfs-secret \
    --from-literal=metaurl=redis://$IP:6379/1 \  # redis 的地址 IP 為 redis 所在節點的 IP
    --from-literal=access-key=minioadmin \ # 對象存儲的 ak
    --from-literal=secret-key=minioadmin  #對象存儲的 sk

創建 Dataset yaml 文件

cat<<EOF >dataset.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: jfsdemo
spec:
  mounts:
    - name: minio
      mountPoint: "juicefs:///demo"
      options:
        bucket: "<bucket>"
        storage: "minio"
      encryptOptions:
        - name: metaurl
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: metaurl
        - name: access-key
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: access-key
        - name: secret-key
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: secret-key
EOF

由於 JuiceFS 采用的是本地緩存,對應的 Dataset 只支持一個 mount,且 JuiceFS 沒有 UFS,mountpoint 中可以指定需要掛載的子目錄 ("juicefs:///" 為根路徑),會作為根目錄掛載到容器內。

創建 Dataset 並查看 Dataset 狀態

$ kubectl create -f dataset.yaml
dataset.data.fluid.io/jfsdemo created
 
$ kubectl get dataset jfsdemo
NAME      UFS TOTAL SIZE   CACHED   CACHE CAPACITY   CACHED PERCENTAGE   PHASE      AGE
jfsdemo                                                                  NotBound   44s

如上所示,status 中的 phase 屬性值為 NotBound,這意味着該 Dataset 資源對象目前還未與任何 JuiceFSRuntime 資源對象綁定,接下來,我們將創建一個 JuiceFSRuntime 資源對象。

創建 JuiceFSRuntime

創建 JuiceFSRuntime 的 yaml 文件

$ cat<<EOF >runtime.yaml
apiVersion: data.fluid.io/v1alpha1
kind: JuiceFSRuntime
metadata:
  name: jfsdemo
spec:
  replicas: 1
  tieredstore:
    levels:
      - mediumtype: SSD
        path: /cache
        quota: 40960   # JuiceFS 中 quota 的最小單位是 MiB,所以這里是 40GiB
        low: "0.1"
EOF

創建並查看 JuiceFSRuntime

$ $ kubectl create -f runtime.yaml
juicefsruntime.data.fluid.io/jfsdemo created

$ kubectl get juicefsruntime
NAME      WORKER PHASE   FUSE PHASE   AGE
jfsdemo   Ready                       Ready        72s

查看 JuiceFS 相關組件 Pod 的狀態

$$ kubectl get po |grep jfs
jfsdemo-worker-mjplw                                           1/1     Running   0          4m2s

JuiceFSRuntime 沒有 master 組件,而 Fuse 組件實現了懶啟動,會在 pod 使用時再創建。

創建緩存加速作業

創建需要加速的應用,其中 Pod 使用上面創建的 Dataset 的方式為指定同名的 PVC

$ cat<<EOF >sample.yaml
apiVersion: v1
kind: Pod
metadata:
  name: demo-app
spec:
  containers:
    - name: demo
      image: nginx
      volumeMounts:
        - mountPath: /data
          name: demo
  volumes:
    - name: demo
      persistentVolumeClaim:
        claimName: jfsdemo
EOF

創建 Pod

$ kubectl create -f sample.yaml
pod/demo-app created

查看 pod 狀態

$ kubectl get po |grep demo
demo-app                                                       1/1     Running   0          31s
jfsdemo-fuse-fx7np                                             1/1     Running   0          31s
jfsdemo-worker-mjplw                                           1/1     Running   0          10m

可以看到 pod 已經創建成功,同時 JuiceFS 的 Fuse 組件也啟動成功。

進入 Pod 執行 df -hT 查看緩存目錄是否掛載:

$ kubectl exec -it demo-app  bash -- df -h
Filesystem      Size  Used Avail Use% Mounted on
overlay          20G   14G  5.9G  71% /
tmpfs            64M     0   64M   0% /dev
tmpfs           3.9G     0  3.9G   0% /sys/fs/cgroup
JuiceFS:minio   1.0P  7.9M  1.0P   1% /data

可以看到這時候緩存目錄已經成功掛載了。

接下來,我們在 demo-app 這個 pod 中測試一下寫功能:

$ kubectl exec -it demo-app bash
[root@demo-app /]# df
Filesystem         1K-blocks     Used     Available Use% Mounted on
overlay             20751360 14585944       6165416  71% /
tmpfs                  65536        0         65536   0% /dev
tmpfs                3995028        0       3995028   0% /sys/fs/cgroup
JuiceFS:minio  1099511627776     8000 1099511619776   1% /data
/dev/sda2           20751360 14585944       6165416  71% /etc/hosts
shm                    65536        0         65536   0% /dev/shm
tmpfs                3995028       12       3995016   1% /run/secrets/kubernetes.io/serviceaccount
tmpfs                3995028        0       3995028   0% /proc/acpi
tmpfs                3995028        0       3995028   0% /proc/scsi
tmpfs                3995028        0       3995028   0% /sys/firmware
[root@demo-app /]#
[root@demo-app /]# cd /data
[root@demo-app data]# echo "hello fluid" > hello.txt
[root@demo-app data]# cat hello.txt
hello fluid

最后再來看看緩存功能,在 demo-app 這個 pod 中的掛載目錄 /data 中創建一個 1G 的文件,然后再 cp 出來:

$ kubectl exec -it demo-app  bash
root@demo-app:~# dd if=/dev/zero of=/data/test.txt count=1024 bs=1M
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB, 1.0 GiB) copied, 6.55431 s, 164 MB/s
root@demo-app:~# time cp /data/test.txt ./test.txt
real	0m5.014s
user	0m0.003s
sys	0m0.702s
root@demo-app:~# time cp /data/test.txt ./test.txt
real	0m0.602s
user	0m0.004s
sys	0m0.584s

從執行結果來看,第一次 cp 用了 5s,此時建立緩存,第二次 cp 的時候由於緩存已經存在,只用了 0.6s。JuiceFS 所提供的強大的緩存能力,使得只要訪問某個文件一次,該文件就會被緩存在本地緩存路徑中中,所有接下來的重復訪問都是從 JuiceFS 中直接獲取數據。

后續規划

目前 JuiceFSRuntime 支持的功能並不多,未來我們會繼續完善,比如 Fuse Pod 以 Nonroot 的方式運行,以及 Dataload 數據預熱功能等。

推薦閱讀:
知乎 x JuiceFS:利用 JuiceFS 給 Flink 容器啟動加速

如有幫助的話歡迎關注我們 Juicedata/JuiceFS 喲! (0ᴗ0✿)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM