1 引言
方便檢索
2 名詞解釋
FLOPS:“每秒浮點運算次數”,“每秒峰值速度”,是“每秒所執行的浮點運算次數”(floating-point operations per second)的縮寫。所謂的“浮點運算”,實際上包括了所有涉及小數的運算。這類運算在某類應用軟件中常常出現,而它們也比整數運算更花時間。現今大部分的處理器中,都有一個專門用來處理浮點運算的“浮點運算器”(FPU)。也因此FLOPS所量測的,實際上就是FPU的執行速度。而最常用來測量FLOPS的基准程式(benchmark)之一,就是Linpack。
- 一個MFLOPS(megaFLOPS)等於每秒一百萬(=10^6)次的浮點運算,
- 一個GFLOPS(gigaFLOPS)等於每秒十億(=10^9)次的浮點運算,
- 一個TFLOPS(teraFLOPS)等於每秒一萬億(=10^12)次的浮點運算,(1太拉)
- 一個PFLOPS(petaFLOPS)等於每秒一千萬億(=10^15)次的浮點運算,
- 一個EFLOPS(exaFLOPS)等於每秒一百京(=10^18)次的浮點運算,
- 一個ZFLOPS(zettaFLOPS)等於每秒十萬京(=10^21)次的浮點運算。
浮點精度:半精度,單精度,雙精度。根據nvidia官方的白皮書里面涉及的:半精度為FP16(浮點數16位);單精度為FP32(浮點數32位);雙精度為FP64(浮點數64位)。
INT8:8-bit的整數運算(一個字節),新增的增強8位整數支持是可以在一個周期內, 對打包在32-bit里的4個8位整數(記做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均為32-bit整數, A和B均為8-bit整數.理論上INT8能以400%的性能(相比於float)完成8-bit整數的點乘和累加操作. 對最近流行的神經網絡推導很有用途.
參考文獻:
- [浮點數運算] FLOPS
- [所有型號簡單鏈接] cuda-gpus
- [google][whitepaper nvidia filetype:pdf]
- nvidia/white-papers
- [費米&開普勒&&麥克斯韋等架構白皮書] NVIDIA's logical pipeline
- [tesla 產品文獻] tesla-product-literature
- [fermi架構 pdf] fermi-gpu-architecture
- [fermi架構 pdf] fermi-gpu-architecture
- [kepler架構 pdf] kepler-gpu-architecture
- [kepler架構 pdf] kepler-gk110-gpu-architecture
- [maxwell架構 pdf] maxwell-gpu-architecture
- [gtx 980白皮書&Maxwell] GTX_980_Whitepaper
- [gtx 1080白皮書] NVIDIA GeForce GTX 1080
- [pascal架構] pascal-gpu-architecture
- [pascal架構 pdf] pascal-gpu-architecture
- [volta架構] volta-gpu-architecture
- [volta架構 pdf] volta-gpu-architecture
- [volta架構 pdf] volta-gpu-architecture
- [turing架構白皮書 pdf] NVIDIA-Turing-Architecture-Whitepaper
- [顯卡之間對比] WIN10 X64下GTX1080TI 深度學習平台搭建簡單教程及曬單