在 Kubernetes 上調度 GPU 資源

本文轉載自查看原文 2021-10-19 09:30 134 kubernetes

轉載自：https://mp.weixin.qq.com/s/BnN4KTZunEttKB0X_8wpvw

Kubernetes 支持對節點上的 AMD 和 NVIDIA 的 GPU 進行管理，目前處於實驗狀態。

用戶如何在不同的 Kubernetes 版本中使用 GPU，以及當前存在的一些限制。

1. 使用設備插件

Kubernetes 實現了 Device Plugins^[1] 以允許 Pod 訪問類似 GPU 這類特殊的硬件功能特性。作為運維管理人員，你要在節點上安裝來自對應硬件廠商的 GPU 驅動程序，並運行來自 GPU 廠商的對應的設備插件。

AMD - deploying-amd-gpu-device-plugin^[2]
NVIDIA - deploying-nvidia-gpu-device-plugin^[3]

當以上條件滿足時，Kubernetes 將暴露 amd.com/gpu 或 nvidia.com/gpu 為可調度的資源，可以通過請求 <vendor>.com/gpu 資源來使用 GPU 設備。不過，使用 GPU 時，在如何指定資源需求這個方面還是有一些限制的：

GPUs 只能設置在 limits 部分，這意味着：

不可以僅指定 requests 而不指定 limits
可以同時指定 limits 和 requests，不過這兩個值必須相等
可以指定 GPU 的 limits 而不指定其 requests，K8S 將使用限制值作為默認的請求值

容器(Pod)之間是不共享 GPU 的，GPU 也不可以過量分配
每個容器可以請求一個或者多個 GPU，但是用小數值來請求部分 GPU 是不允許的

# need 2 GPUs
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: cuda-container
      image: nvcr.io/nvidia/cuda:9.0-devel
      resources:
        limits:
          nvidia.com/gpu: 2
    - name: digits-container
      image: nvcr.io/nvidia/digits:20.12-tensorflow-py3
      resources:
        limits:
          nvidia.com/gpu: 2

2. 部署 AMD GPU 設備插件

節點需要使用 AMD 的 GPU 資源的話，需要先安裝 k8s-device-plugin^[4] 這個插件，並且需要 K8S 節點必須預先安裝 AMD GPU 的 Linux 驅動。

# 安裝顯卡插件
$ kubectl create -f https://raw.githubusercontent.com/RadeonOpenCompute/k8s-device-plugin/r1.10/k8s-ds-amdgpu-dp.yaml

3. 部署 NVIDIA GPU 設備插件

節點需要使用 NVIDIA 的 GPU 資源的話，需要先安裝 k8s-device-plugin 這個插件，並且需要事先滿足下面的條件：

Kubernetes 的節點必須預先安裝了 NVIDIA 驅動
Kubernetes 的節點必須預先安裝 nvidia-docker2.0
Docker 的默認運行時必須設置為 nvidia-container-runtime，而不是 runc
NVIDIA 驅動版本大於或者等於 384.81 版本

# 安裝nvidia-docker2.0工具
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
$ sudo apt-get update && sudo apt-get install -y nvidia-docker2
$ sudo systemctl restart docker

# 安裝nvidia-container-runtime運行時
$ cat /etc/docker/daemon.json
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}

# 安裝顯卡插件
$ kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/1.0.0-beta4/nvidia-device-plugin.yml

也可以使用 helm 或 docker 安裝:

$ helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
$ helm repo update
$ helm install --version=0.9.0 --generate-name nvdp/nvidia-device-plugin

# 也可以使用docker安裝
$ docker run -it \
    --security-opt=no-new-privileges \
    --cap-drop=ALL --network=none \
    -v /var/lib/kubelet/device-plugins:/var/lib/kubelet/device-plugins \
    nvcr.io/nvidia/k8s-device-plugin:devel

4. 結論總結陳述

顯卡插件，就是在我們通過在配置文件里面指定如下字段之后，啟動 pod 的時候，系統給為我們的服務分配對應需要數量的顯卡數量，讓我們的程序可以使用顯卡資源。

amd.com/gpu
nvidia.com/gpu

需要注意的是，第一次安裝顯卡驅動的話，是不用重啟服務器的，后續更新驅動版本的話，則是需要的。但是建議第一次安裝驅動之后，最好還是重啟下，防止意外情況的出現和發生。

原文鏈接：https://www.escapelife.site/posts/b7a3f647.html

參考資料

[1]

Device Plugins: https://kubernetes.io/zh/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/

[2]

AMD - deploying-amd-gpu-device-plugin: https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/#deploying-amd-gpu-device-plugin

[3]

NVIDIA - deploying-nvidia-gpu-device-plugin: https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/#deploying-nvidia-gpu-device-plugin

[4]

k8s-device-plugin: https://github.com/RadeonOpenCompute/k8s-device-plugin

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 kubernetes調度之資源配額 kubernetes資源調度使用 Elastic GPU 管理 Kubernetes GPU 資源在kubernetes中使用GPU資源 kubernetes資源調度之LimitRange kubernetes調度之資源配額示例 Kubernetes Pod資源調度之全自動調度和定向調度 kubernetes Pod資源調度之污點和容忍 kubernetes調度之資源耗盡處理配置 kubernetes Pod資源調度之優先(搶占)調度