背景
qGPU 是騰訊雲推出的 GPU 共享技術,支持在多個容器間共享 GPU卡,並提供容器間顯存、算力強隔離的能力,從而在更小粒度的使用 GPU 卡的基礎上,保證業務安全,達到提高 GPU 使用率、降低客戶成本的目的。
qGPU on TKE 依托騰訊雲 TKE 對外開源的 Nano GPU 調度框架,可實現對 GPU 算力與顯存的細粒度調度,並支持多容器共享 GPU 與多容器跨 GPU 資源分配。同時依賴底層強大的 qGPU 隔離技術,可做到 GPU 顯存和算力的強隔離,在通過共享使用 GPU 的同時,盡最大可能保證業務性能與資源不受干擾。
功能優勢
qGPU 方案通過對 NVIDIA GPU 卡上任務更有效的調度,達到給多個容器共享使用的目的,支持的功能如下:
靈活性:用戶可以自由配置 GPU 的顯存大小和算力占比
雲原生:支持標准的 Kubernetes,兼容 NVIDIA Docker 方案
兼容性:鏡像不修改/CUDA 庫不替換/業務不重編,易部署,業務無感知
高性能:在底層對 GPU 設備進行操作,高效收斂,吞吐接近0損耗
強隔離:支持顯存和算力的嚴格隔離,業務共享不受影響
技術架構
qGPU on TKE 使用 Nano GPU 調度框架,通過Kubernetes擴展調度機制,同時支持 GPU 算力與顯存資源調度。並且依賴 Nano GPU 的容器定位機制,支持精細化 GPU 卡調度,同時支持多容器 GPU 卡共享分配與多容器 GPU 跨卡分配。
qGPU 直接采用英偉達 GPU 底層硬件特性進行調度,實現細粒度算力隔離,打破傳統上 CUDA API 劫持方案的只能以 CUDA Kernel 為粒度進行算力隔離的限制,提供更好的 QoS 保證。
客戶收益
- 多任務靈活共享 GPU,提升利用率
- GPU 資源強隔離,業務共享不受影響
- 完全面向 Kubernetes,業務使用零成本
未來規划
● 支持細粒度資源監控:qGPU on TKE 將支持對 Pod 和容器級的 GPU 使用率采集,實現更細粒度的資源監控和與 GPU 彈性能力的整合
● 支持在離線混部:qGPU on TKE 將支持在線業務和離線業務的高低優先級混部,最大限度地提升 GPU 利用率
● 支持 qGPU 算力池化:基於 qGPU 的 GPU 算力池化,實現 CPU、內存資源與異構計算資源解耦
內測申請
qGPU 已經開放免費內測,歡迎添加騰訊雲原生小助手:TKEplatform,備注”qGPU內測申請“進行試用!
關於我們
更多關於雲原生的案例和知識,可關注同名【騰訊雲原生】公眾號~
福利:公眾號后台回復【手冊】,可獲得《騰訊雲原生路線圖手冊》&《騰訊雲原生最佳實踐》~
【騰訊雲原生】雲說新品、雲研新術、雲游新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多干貨!!