使用TensorRT集成推理inference
使用TensorRT集成進行推理測試。
使用ResNet50模型對每個GPU進行推理,並對其它模型進行性能比較,最后與其它服務器進行比較測試。
- ResNet-50 Inference performance: Throughput vs Batch size
在每個GPU上使用不同的批處理大小(從1到32)運行帶有預訓練的ResNet50模型的吞吐量測試。
圖1顯示了吞吐量(幀/秒)的結果。
結果在gpu和潛伏期(在右縱軸上表示)上是一致的。
Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s
上面的曲線圖顯示,使用Batchsize為1-8的批處理可以達到7ms的延遲,並且從y軸來看,當Batchsize為4時,在7ms延遲窗口內我們可以得到670個幀/秒。
在運行測試時,我們發現默認情況下推理inference是在設備0上進行的,這意味着當前的TensorRT™ 推理引擎不能與GPU-GPU通信一起工作以最大限度地利用服務器中可用的GPU。如果目標是在多個GPU中運行同一個圖形來提高吞吐量,Nvidia建議現在使用原生TensorFlow。
另一方面,TensorRT推理服務器(TRTIS)支持多個GPU,但不支持運行分布在多個GPU上的單個推理。TRTIS可以在多個GPU上運行多個模型(和/或同一模型的多個實例)以提高吞吐量。
2.All Models: Images/sec vs batch size vs Neural models
Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes
使用不同的神經模型在不同的Batchsize中進行推理測試。
以Batchsize大小1、2、4、8、26和32顯示運行推理inference的吞吐量和延遲。ResNet50以最低的延遲產生最高的吞吐量(圖像/秒)。
Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes
3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU
Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers
Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers
使用幾種模型在服務器R740-P4和R7245-P4上進行了推理測試,並將它們的結果與R7425-T4-16GB的結果進行了比較。服務器R7425-T4-16GB的性能比ResNet50型號上的其它服務器快1.8倍,延遲只有一半。