NVIDIA Tensor Cores解析
高性能計算機和人工智能前所未有的加速
Tensor Cores支持混合精度計算,動態調整計算以加快吞吐量,同時保持精度。最新一代將這些加速功能擴展到各種工作負載。NVIDIA Tensor內核為所有工作負載提供了新的能力,從革命性的新精度Tensor Float 32(TF32)人工智能訓練中的10倍加速到浮點64(FP64)高性能計算的2.5倍加速。
Revolutionary AI Training
當人工智能模型面臨更高層次的挑戰時,如精確的對話人工智能和深度推薦系統,它們的復雜性繼續爆炸。像威震天這樣的對話人工智能模型比像ResNet-50這樣的圖像分類模型大數百倍,也更復雜。以FP32精度訓練這些大型模型可能需要幾天甚至幾周的時間。NVIDIA GPU中的張量磁芯提供了一個數量級的更高性能,降低了TF32和FP16等精度。並通過NVIDIA CUDA-X在本機框架中直接支持™ 庫中,實現是自動的,在保持准確性的同時,大大縮短了訓練的收斂時間。
Breakthrough AI Inference
一個好的人工智能推理加速器不僅要有很好的性能,還要有多功能性來加速不同的神經網絡,同時還要有可編程性,使開發人員能夠構建新的神經網絡。高吞吐量的低延遲同時最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供無與倫比的多功能性和性能。
Advanced HPC
高性能混凝土是現代科學的一個基本支柱。為了揭示下一代的發現,科學家們利用模擬來更好地理解葯物發現的復雜分子、潛在能源的物理學和大氣數據,以便更好地預測和准備極端天氣模式。NVIDIA Tensor內核提供了包括FP64在內的全方位精度,以加速所需的最高精度的科學計算。
NVIDIA HPC SDK是一套綜合的編譯器、庫和工具,用於為NVIDIA平台開發HPC應用程序。
現代應用的加速
CUDA-X AI和CUDA-X HPC庫與NVIDIA Tensor Core gpu無縫協作,加速跨多個域應用程序的開發和部署。
現代人工智能有可能擾亂許多行業,但如何利用它的力量是一個挑戰。開發人工智能應用程序需要許多步驟:
數據處理、特征工程、機器學習、驗證和部署,每一步都涉及處理大量數據和執行大量計算操作。CUDA-X人工智能提供了克服這一挑戰所需的工具和技術。
A100 Tensor Cores
第三代
NVIDIA Tensor核心技術為人工智能帶來了驚人的加速,將訓練時間從幾周縮短到幾小時,並為推理提供了巨大的加速。NVIDIA安培體系結構提供了巨大的性能提升,並提供了新的精度,以覆蓋研究人員所需的全譜-TF32、FP64、FP16、INT8和INT4加速和簡化人工智能采用,並將NVIDIATensor Cores的功率擴展到高性能計算機。
Tensor Float 32
隨着人工智能網絡和數據集繼續呈指數級增長,它們的計算需求也同樣增長。較低精度的數學運算帶來了巨大的性能加速,但它們歷來需要一些代碼更改。A100帶來了一種新的精度,TF32,它的工作原理和FP32一樣,同時為人工智能提供高達20倍的加速,而不需要任何代碼更改。
圖靈Tensor Cores
第二代
英偉達圖靈™ Tensor Cores心技術的特點是多精度計算,有效的人工智能推理。圖靈Tensor Cores為深度學習訓練和推理提供了一系列精度,從FP32到FP16到INT8,以及INT4,在性能上超過NVIDIA Pascal™ GPU。
Volta Tensor Cores
第一代
專為深度學習而設計的NVIDIA Volta第一代Tensor Cores™ 在FP16和FP32中使用混合精度矩陣乘法提供開創性的性能,高達12倍的高峰值teraFLOPS(TFLOPS)用於訓練,6倍的高峰值TFLOPS用於NVIDIA Pascal上的推理。這一關鍵能力使Volta能夠在Pascal上提供3倍的訓練和推理性能加速。
NVIDIA贏得MLPerf推理基准
NVIDIA在新的MLPerf基准上發布了最快的結果,該基准測試了數據中心和邊緣的人工智能推理工作負載的性能。新的業績是在該公司今年早些時候公布的MLPerf基准業績同樣強勁的情況下發布的。
MLPerf的五個推理基准——應用於一系列的形狀因子和四個推理場景——涵蓋了諸如圖像分類、對象檢測和翻譯等已建立的人工智能應用。
用例和基准是:
NVIDIA在以數據中心為中心的場景(服務器和脫機)的所有五個基准測試中都名列前茅,其中Turing gpu為每個處理器提供了商用項目中最高的性能。Xavier在以邊緣為中心的場景(單流和多流)下提供了商用邊緣和移動SOC中最高的性能。
NVIDIA的所有MLPerf結果都是使用NVIDIA TensorRT 6高性能深度學習推理軟件實現的,該軟件可以方便地優化和部署從數據中心到邊緣的人工智能應用程序。新的TensorRT優化也可以作為GitHub存儲庫中的開放源代碼使用。請參閱此開發人員博客中的完整結果和基准測試詳細信息。
除了是唯一一家提交了MLPerf Inference v0.5所有五個基准測試的公司外,NVIDIA還在開放部門提交了ResNet-50v1.5的INT4實現。這個實現帶來了59%的吞吐量增長,准確率損失小於1.1%。在這個博客中,我們將帶您簡要介紹我們的INT4提交,它來自NVIDIA早期的研究,用於評估圖靈上INT4推理的性能和准確度。在此了解有關INT4精度的更多信息。
NVIDIA在擴展其推理平台的同時,今天還推出了Jetson Xavier NX,這是世界上最小、最強大的用於邊緣機器人和嵌入式計算設備的AI超級計算機。
Jetson-Xavier NX模塊與Jetson-Nano引腳兼容,基於NVIDIA的Xavier SoC的低功耗版本,該版本在邊緣SoC中引領了最近的MLPerf推斷0.5結果,為在邊緣部署高要求的基於AI的工作負載提供了更高的性能,這些工作負載可能受到尺寸、重量、功率和成本等因素的限制。在此處了解有關新系統的更多信息,並了解如何在5個類別中的4個類別中占據榜首。
最強大的端到端人工智能和高性能數據中心平台
Tensor核心是完整NVIDIA數據中心解決方案的基本組成部分,該解決方案集成了NGC的硬件、網絡、軟件、庫以及優化的AI模型和應用程序™. 作為最強大的端到端人工智能和高性能計算機平台,它允許研究人員提供真實的結果,並將解決方案大規模部署到生產中。