使用GPU計算時，單精度float32類型和半精度float16類型運算效率的區別

本文轉載自查看原文 2020-11-20 15:39 1615 CUDA

最近在看資料時發現寫着使用float16 半精度類型的數據計算速度要比float32的單精度類型數據計算要快，因為以前沒有考慮過數據類型對計算速度的影響，只知道這個會影響最終的計算結果精度。於是，好奇的使用TensorFlow寫了些代碼，試試看看是否有很大的區別，具體代碼如下：

import tensorflow as tf
import time

x = tf.Variable(tf.random.normal([64,3000,3000], dtype=tf.float32))
y = tf.Variable(tf.random.normal([64,3000,3000], dtype=tf.float32))

#x = tf.Variable(tf.random.normal([64,3000,3000], dtype=tf.float16))
#y = tf.Variable(tf.random.normal([64,3000,3000], dtype=tf.float16))


init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)

    a = time.time()
    for _ in range(500):
        sess.run(tf.matmul(x,y))
    b = time.time()

    print(b-a)

上述代碼，分別使用單精度或半精度類型的x,y來進行計算。

分別使用RTX titan 和 RTX 2060super 兩個類型的顯卡分別測試：

RTX titan 顯卡環境下：

Float32 , 單精度數據類型的x, y:

RTX titan 顯卡環境下：

Float16 , 半精度數據類型的x, y:

-------------------------------------------------------------------------

RTX 2060super 顯卡環境下：

Float32 , 單精度數據類型的x, y:

RTX 2060super 顯卡環境下：

Float16 , 半精度數據類型的x, y:

======================================================

說下個人的結論：

1. 如果任務需要的計算能力在家用級別顯卡的計算能力之下（顯卡利用率在100%以內，不考慮顯存的前提），那么家用級顯卡計算時間不會比服務器級別顯卡運算時間長。或者說，如果你的任務使用家用級別顯卡可以應付，那么運行時間不會比使用服務器級別顯卡的時間長。

2. 服務器級別的顯卡運行效率受多方面的條件影響，同一任務多次運行的時間會有一定波動；而家用級別的顯卡一般所受影響的方面較少，同一任務多次運行的時間也比較一致。

3.同一個任務可能使用服務器顯卡，顯卡的利用率可能只有40%,但是使用家用級別的顯卡利用率可能就有99%了，證明服務器顯卡的性能上限要遠高於家用級別顯卡。但是如果你的計算任務並沒有那么高的計算性能要求，可能使用家用級別的顯卡（此時，如果你在超個頻啥的，oc版顯卡）運算時間很可能要短於服務器級別顯卡的運算時間的。

======================

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Float32與Float16轉換 float16與float32轉換什么是浮點型？什么是單精度浮點數（float）以及雙精度浮點數（double）？ Java Float類型減法運算時精度丟失問題正確生成浮點型的方法，解決sqlachemy Float浮點型的坑，生成float類型時，長度和精度均為0，導致查詢不到結果！ FLOAT 與 DOUBLE 差異（單精度與雙精度有什么區別） int、int16、int32、int64、float、float16、float32、float64 解決float型數據精度損失問題 float:浮點型double:雙精度實型decimal:數字型單精度浮點數(Single)雙精度浮點數(double) 關於MySQL中存儲類型為Float，使用jdbc查詢時丟失精度，或者自動四舍五入的問題