nvidia[GPU架構發展對比]

本文轉載自查看原文 2020-03-17 11:40 405 CUDA

1 引言

方便檢索

2 名詞解釋

FLOPS：“每秒浮點運算次數”，“每秒峰值速度”，是“每秒所執行的浮點運算次數”（floating-point operations per second）的縮寫。所謂的“浮點運算”，實際上包括了所有涉及小數的運算。這類運算在某類應用軟件中常常出現，而它們也比整數運算更花時間。現今大部分的處理器中，都有一個專門用來處理浮點運算的“浮點運算器”（FPU）。也因此FLOPS所量測的，實際上就是FPU的執行速度。而最常用來測量FLOPS的基准程式（benchmark）之一，就是Linpack。

一個MFLOPS（megaFLOPS）等於每秒一百萬（=10^6）次的浮點運算，
一個GFLOPS（gigaFLOPS）等於每秒十億（=10^9）次的浮點運算，
一個TFLOPS（teraFLOPS）等於每秒一萬億（=10^12）次的浮點運算，(1太拉)
一個PFLOPS（petaFLOPS）等於每秒一千萬億（=10^15）次的浮點運算，
一個EFLOPS（exaFLOPS）等於每秒一百京（=10^18）次的浮點運算，
一個ZFLOPS（zettaFLOPS）等於每秒十萬京（=10^21）次的浮點運算。

浮點精度：半精度，單精度，雙精度。根據nvidia官方的白皮書里面涉及的：半精度為FP16（浮點數16位）；單精度為FP32（浮點數32位）；雙精度為FP64（浮點數64位）。

INT8：8-bit的整數運算(一個字節)，新增的增強8位整數支持是可以在一個周期內, 對打包在32-bit里的4個8位整數(記做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均為32-bit整數, A和B均為8-bit整數.理論上INT8能以400%的性能(相比於float)完成8-bit整數的點乘和累加操作. 對最近流行的神經網絡推導很有用途.

參考文獻：

[浮點數運算] FLOPS
[所有型號簡單鏈接] cuda-gpus
[google][whitepaper nvidia filetype:pdf]
nvidia/white-papers
[費米&開普勒&&麥克斯韋等架構白皮書] NVIDIA's logical pipeline
[tesla 產品文獻] tesla-product-literature
[fermi架構 pdf] fermi-gpu-architecture
[fermi架構 pdf] fermi-gpu-architecture
[kepler架構 pdf] kepler-gpu-architecture
[kepler架構 pdf] kepler-gk110-gpu-architecture
[maxwell架構 pdf] maxwell-gpu-architecture
[gtx 980白皮書&Maxwell] GTX_980_Whitepaper
[gtx 1080白皮書] NVIDIA GeForce GTX 1080
[pascal架構] pascal-gpu-architecture
[pascal架構 pdf] pascal-gpu-architecture
[volta架構] volta-gpu-architecture
[volta架構 pdf] volta-gpu-architecture
[volta架構 pdf] volta-gpu-architecture
[turing架構白皮書 pdf] NVIDIA-Turing-Architecture-Whitepaper
[顯卡之間對比] WIN10 X64下GTX1080TI 深度學習平台搭建簡單教程及曬單

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NVIDIA GPU 架構演進 NVIDIA GPU Turing架構簡述 NVIDIA GPU Volta架構簡述 NVIDIA GPU Pascal架構簡述 NVIDIA GPU 系列架構詳解（轉） NVIDIA GPU 計算能力 [翻譯] NVIDIA HugeCTR，GPU 版本參數服務器 --(10)--- 推理架構 GPU---NVIDIA GPU 計算能力 nvidia gpu fan speed control Nvidia GPU 算力查詢