使用TensorRT集成推理inference - 碼上歡樂

相關內容簡體繁體

使用TensorRT集成推理inference

本文轉載自查看原文 2020-11-28 09:44 560

使用TensorRT集成推理inference

使用TensorRT集成進行推理測試。

使用ResNet50模型對每個GPU進行推理，並對其它模型進行性能比較，最后與其它服務器進行比較測試。

ResNet-50 Inference performance: Throughput vs Batch size

在每個GPU上使用不同的批處理大小（從1到32）運行帶有預訓練的ResNet50模型的吞吐量測試。

圖1顯示了吞吐量（幀/秒）的結果。

結果在gpu和潛伏期（在右縱軸上表示）上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲線圖顯示，使用Batchsize為1-8的批處理可以達到7ms的延遲，並且從y軸來看，當Batchsize為4時，在7ms延遲窗口內我們可以得到670個幀/秒。

在運行測試時，我們發現默認情況下推理inference是在設備0上進行的，這意味着當前的TensorRT™ 推理引擎不能與GPU-GPU通信一起工作以最大限度地利用服務器中可用的GPU。如果目標是在多個GPU中運行同一個圖形來提高吞吐量，Nvidia建議現在使用原生TensorFlow。

另一方面，TensorRT推理服務器（TRTIS）支持多個GPU，但不支持運行分布在多個GPU上的單個推理。TRTIS可以在多個GPU上運行多個模型（和/或同一模型的多個實例）以提高吞吐量。

2．All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神經模型在不同的Batchsize中進行推理測試。

以Batchsize大小1、2、4、8、26和32顯示運行推理inference的吞吐量和延遲。ResNet50以最低的延遲產生最高的吞吐量（圖像/秒）。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

使用幾種模型在服務器R740-P4和R7245-P4上進行了推理測試，並將它們的結果與R7425-T4-16GB的結果進行了比較。服務器R7425-T4-16GB的性能比ResNet50型號上的其它服務器快1.8倍，延遲只有一半。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Paddle Inference原生推理庫深度學習推理加速TensorRT簡介《Enhanced LSTM for Natural Language Inference》（自然語言推理） TensorRT推理加速-基於Tensorflow(keras)的uff格式模型(文件准備) 基於PyTorch與TensorRT的cifar10推理加速引擎(C++) 基於TensorRT 3的自動駕駛快速INT8推理《二》TensorRT之C++接口使用實現TensorRT-7.0插件自由！(如果不踩坑使用TensorRT插件功能) 使用Tensorflow Object Detection進行訓練和推理使用TensorRT對人臉檢測網絡MTCNN進行加速

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM