前言 這段時間一直在學習如何使用 Triton,期間也是一直在嘗試構建 Triton Inference Server。這構建的過程感覺特別的痛苦,一方面是網絡問題導致的構建速度慢、構建失敗的問題,另一方面是 Triton 提供的構建腳本在我這兒並不有效,需要自己想一個辦法。 按照官方的文檔 ...
Triton Inference Server 定位 在接觸了一段時間的 Triton 之后,我認為它的定位在於模型服務,即它的主要職責和服務緊密相關,服務中常見的需求它需要做處理。比如 Batching,Sequence,Pipeline 等,再比如模型倉庫的管理,模型后端引擎的管理等,還有性能測試工具等。至於模型部署優化,我覺得 Triton 和它的關系是不密切的。我所謂的 模型部署優化 指 ...
2021-10-30 21:17 3 4039 推薦指數:
前言 這段時間一直在學習如何使用 Triton,期間也是一直在嘗試構建 Triton Inference Server。這構建的過程感覺特別的痛苦,一方面是網絡問題導致的構建速度慢、構建失敗的問題,另一方面是 Triton 提供的構建腳本在我這兒並不有效,需要自己想一個辦法。 按照官方的文檔 ...
Python Backend Triton 提供了 pipeline 的功能,但是 Triton 的 pipeline 只能將輸入和輸出串聯到一起,太過於簡單靜態了,不支持控制流,比如循環、判斷等,模型和模型之間的數據格式不靈活,只能是向量。pipeline 太死板了,有沒有辦法支持更加靈活 ...
Model Warmup 的設置 這一篇非常簡單,就是記錄 Model Warmup 是如何使用的。本來是為了解決第一次推理太慢的問題,后來發現其實不適用 Model Warmup。不過都已經手寫了 ...
Triton 搭建 ensemble 過程記錄 本文記錄 Triton ensemble 搭建的過程,在 Triton 這個特性叫做 ensemble,但是這個特性叫做 pipeline 更為常見,后面就叫 pipeline 吧。首先要說明的是,本文中的例子只是為了試試看 Triton ...
Rate Limiter 這篇文章記錄 Rate Limter 的使用方法,主要來自於文檔。 從效果上來說,Rate Limiter 的作用是限制了請求分發到模型實例上。從實現上來說,Rate L ...
簡介 Agent 擴展了 Triton 在加載卸載 “模型” 時候的功能。比如可以在加載模型的時候,進行 md5 校驗。 agent 的使用非常簡單,就在模型的配置文件后面加上以下的配置就好了。對的,就是這么簡單。這是英偉達的例子,使用了 checksum agent,在模型加載的時候會校驗 ...
如何實現一個 backend 這篇文章主要講如何實現一個 Triton Backend,以 Pytorch Backend 為例子。 Backend API 我們需要實現兩個類來存儲狀態以及七個 Backend API。 ModelState ModelInstanceState ...
摘要 本篇文章介紹了如何上手使用 Triton,本文將使用 Pytorch 導出 Resnet50 模型,將其部署到 Triton。Resnet50 是一個預訓練模型,我們可以直接使用它預訓練時的任務,即圖像分類。部署好了之后,會介紹如何使用 Python 客戶端進行請求,客戶端發送一張圖片 ...