AI解決方案:邊緣計算和GPU加速平台


AI解決方案:邊緣計算和GPU加速平台

一.適用於邊緣 AI 的解決方案

 

 

 AI 在邊緣蓬勃發展。AI 和雲原生應用程序、物聯網及其數十億的傳感器以及 5G 網絡現已使得在邊緣大規模部署 AI 成為可能。但它需要一個可擴展的加速平台,能夠實時推動決策,並讓各個行業都能為行動點(商店、制造工廠、醫院和智慧城市)提供自動化智能。這將人、企業和加速服務融合在一起,從而使世界變得“更小”、

更緊密。

 

 

  適用於各行各業的邊緣 AI 解決方案

卓越購物體驗

借助 AI 驅動的見解,各地的大型零售商可讓客戶時刻滿意。大型零售商已開發了多種 AI 策略,用於改善客戶體驗,並協助其員工完成日常運營。例如,智能化結賬系統利用計算機視覺,確定所掃描的商品正是條形碼標識的商品。智能視頻分析 (IVA) 可幫助零售商了解購物者的偏好,並優化商店布局,從而打造更好的店內體驗。借助 AI,零售商可以幫助員工確定何時需要補充商品,或者替換為更新鮮的商品。

 

 

 工廠車間的新願景

企業正在采用加速的邊緣計算和 AI,將制造業轉變為更安全、更高效的行業。例如,寶馬公司在工廠車間安裝檢測攝像頭,360 度全景觀看裝配線,從而將 AI 的強大性能帶入邊緣。這樣可以獲得實時見解,打造更安全、更精簡的制造流程。此外,Procter & Gamble 正在利用更快的邊緣計算,協助其員工完成檢測。通過分析數千小時的檢測線鏡頭,該公司可以立即標記瑕疵,改善質量控制,並滿足極高的安全標准。

 

 

 NVIDIA A100 Tensor Core GPU

提高道路安全性

企業並不是轉向加速邊緣 AI 的唯一范例。愛荷華州迪比克等城市正在營造更安全的道路條件,並提供更快的應急服務。在迪比克市,數十個互連攝像頭讓您可以實時了解交通狀況,檢測到身陷危險的駕駛員、阻礙道路的障礙以及可能需要緊急幫助的人員。Numina 等公司也將 AI 引入邊緣,以疏通交通流量,為駕駛員、騎行者和行人打造更安全的道路。

 

 

 如何在邊緣部署 AI

 

 

 二.在各種規模上實現出色的加速

 

 

 加速當今最重要的工作

NVIDIA A100 Tensor Core GPU 可針對 AI、數據分析和高性能計算 (HPC),在各種規模上實現出色的加速,應對極其嚴峻的計算挑戰。作為 NVIDIA 數據中心平台的引擎,A100 可以高效擴展,系統中可以集成數千個  A100 GPU,也可以利用 NVIDIA 多實例 GPU (MIG) 技術將每個 A100 划分割為七個獨立的 GPU 實例,以加速各種規模的工作負載。第三代 Tensor Core 技術為各種工作負載的更多精度水平提供加速支持,縮短獲取洞見以及產品上市時間。

功能強大的端到端 AI 和 HPC 數據中心平台

A100 是完整的 NVIDIA 數據中心解決方案堆棧的一部分,該解決方案堆棧包括來自 NGC™ (NVIDIA GPU Cloud) 的硬件、網絡、軟件、庫以及優化的 AI 模型和應用程序構建模塊。它為數據中心提供了強大的端到端 AI 和 HPC 平台,使研究人員能夠大規模地交付真實的結果,並將解決方案大規模部署到生產環境中。

深度學習訓練

當今的 AI 模型需要應對精准對話式 AI 和深度推薦系統等新型挑戰,這促使其復雜度呈爆炸式增長。訓練這些模型需要大規模的計算能力和可擴展性。

NVIDIA A100 的第三代 Tensor Core 借助 Tensor 浮點運算 (TF32) 精度,可提供比上一代高 10 倍之多的性能,並且無需更改代碼,更能通過自動混合精度將性能進一步提升兩倍。與第三代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCIe 4.0、Mellanox 和 Magnum IO 軟件 SDK 結合使用時,系統中可以集成數千個 A100 GPU。這意味着,BERT 等大型 AI 模型只需在 A100 構成的集群上進行訓練幾十分鍾,從而提供出色的性能和可擴展性。

NVIDIA 在深度學習訓練方面的領先地位在  MLPerf 0.6 中得到了證明,這是 AI 訓練的第一項行業級基准測試。

 

 

 深度學習推理

A100 引入了突破性的新功能優化推理工作負載。它通過全系列精度(從 FP32、FP16、INT8 一直到 INT4)加速,實現了強大的多元化用途。MIG 技術支持多個網絡同時在單個 A100 GPU 運行,從而優化計算資源的利用率。在 A100 其他推理性能提升的基礎上,結構化稀疏支持將性能再提升兩倍。

NVIDIA 提供市場領先的推理性能,在第一項專門針對推理性能的行業級基准測試  MLPerf Inference 0.5中全面制勝的結果充分證明了這一點。A100 則再將性能提升 10 倍,在這樣的領先基礎上進一步取得了發展。

 

 高性能計算

為了點燃下一代新發現的火花,科學家們希望通過模擬更好地理解復雜分子結構以支持葯物發現,通過模擬物理效果尋找潛在的新能源,通過模擬大氣數據更好地預測極端天氣狀況並為其做准備。

A100 引入了雙精度 Tensor Cores, 繼用於 HPC 的 GPU 雙精度計算技術推出至今,這是非常重要的里程碑。利用 A100,原本在 NVIDIA V100 Tensor Core GPU 上需要 10 小時的雙精度模擬作業如今只要 4 小時就能完成。HPC 應用還可以利用 A100 的 Tensor Core,將單精度矩陣乘法運算的吞吐量提高 10 倍之多。

 

 

 數據分析

客戶需要能夠分析和可視化龐大的數據集,並將其轉化為寶貴洞見。但是,由於這些數據集分散在多台服務器上,橫向擴展解決方案往往會陷入困境。

搭載 A100 的加速服務器可以提供必要的計算能力,並利用第三代 NVLink 和 NVSwitch 1.6TB/s 的顯存帶寬和可擴展性,妥善應對這些龐大的工作負載。結合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和  NVIDIA RAPIDS NVIDIA 數據中心平台能夠以出色的性能和效率加速這些大規模工作負載。

 

 

 企業級利用率

A100 的 多實例 GPU (MIG) 功能使 GPU 加速的基礎架構利用率大幅提升,達到前所未有的水平。MIG 支持將 A100 GPU 安全分割到多達七個獨立實例中,這些 A100 GPU 實例可供多名用戶使用,以加速應用和開發項目。此外,數據中心管理員可以利用基於虛擬化技術帶來的管理、監控和操作方面的優勢,發揮 NVIDIA 虛擬計算服務器 ( vComputeServer) 的動態遷移和多租戶功能。A100 的 MIG 功能可以使基礎架構管理員對其 GPU 加速的基礎架構作標准化處理,同時以更精確的粒度提供 GPU 資源,從而為開發者提供正確的加速計算量,並確保其所有 GPU 資源得到充分利用。

 

 

 

規格

 

適用於 NVLink 的 A100

FP64 峰值性能

9.7 TF

FP64 Tensor Core 峰值性能

19.5 TF

FP32 峰值性能

19.5 TF

TF32 Tensor Core 峰值性能

156 TF | 312 TF*

BFLOAT16 Tensor Core 峰值性能

312 TF | 624 TF*

FP16 Tensor Core 峰值性能

312 TF | 624 TF*

INT8 Tensor Core 峰值性能

624 TOPS | 1,248 TOPS*

INT4 Tensor Core 峰值性能

1,248 TOPS | 2,496 TOPS*

GPU 顯存

40 GB

GPU 顯存帶寬

1,555 GB/s

互聯帶寬

NVIDIA NVLink 600 GB/s
PCIe Gen4 64 GB/s

多實例 GPU

3MIG @ 10GB
5MIG @ 8GB
7MIG @ 5GB

外形尺寸

4/8 SXM on NVIDIA HGX A100

最大 TDP 功耗

400W

* 采用稀疏技術

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM