【文章推荐】我不会用 Triton 系列：Stateful Model 学习笔记

原文：我不会用 Triton 系列：Stateful Model 学习笔记

Stateful Models 学习笔记在 Triton Architecture 的文档中，有一个令我困惑了许久的 feature：Stateful Models。如果你也看不太懂的话，并且想知道或必须知道它是什么东西的话，不妨看看这一篇学习笔记，看看能不能对你有所帮助。下面是我的一点粗浅的理解，如果有错误，恳请您在评论区指出，谢谢链接：https: github.com triton in ...

2021-11-04 22:15 1 1533 推荐指数：

查看详情

我不会用 Triton 系列：Model Warmup 的使用

Model Warmup 的设置这一篇非常简单，就是记录 Model Warmup 是如何使用的。本来是为了解决第一次推理太慢的问题，后来发现其实不适用 Model Warmup。不过都已经手写了 protobuf 了，官方的例子还藏在测试的 .sh 文件中，为了方便后续使用，就写一篇来做记录 ...

我不会用 Triton 系列：Dynamic batching 学习笔记

的 batch size。 When a model instance becomes available ...

我不会用 Triton 系列：Python Backend 的使用

Python Backend Triton 提供了 pipeline 的功能，但是 Triton 的 pipeline 只能将输入和输出串联到一起，太过于简单静态了，不支持控制流，比如循环、判断等，模型和模型之间的数据格式不灵活，只能是向量。pipeline 太死板了，有没有办法支持更加灵活 ...

我不会用 Triton 系列：构建 Triton Server 过程记录

前言这段时间一直在学习如何使用 Triton，期间也是一直在尝试构建 Triton Inference Server。这构建的过程感觉特别的痛苦，一方面是网络问题导致的构建速度慢、构建失败的问题，另一方面是 Triton 提供的构建脚本在我这儿并不有效，需要自己想一个办法。按照官方的文档 ...

我不会用 Triton 系列：Rate Limiter 的使用

Rate Limiter 这篇文章记录 Rate Limter 的使用方法，主要来自于文档。从效果上来说，Rate Limiter 的作用是限制了请求分发到模型实例上。从实现上来说，Rate L ...

我不会用 Triton 系列：Agent 的使用

简介 Agent 扩展了 Triton 在加载卸载 “模型” 时候的功能。比如可以在加载模型的时候，进行 md5 校验。 agent 的使用非常简单，就在模型的配置文件后面加上以下的配置就好了。对的，就是这么简单。这是英伟达的例子，使用了 checksum agent，在模型加载的时候会校验 ...

我不会用 Triton 系列：如何实现一个 backend

如何实现一个 backend 这篇文章主要讲如何实现一个 Triton Backend，以 Pytorch Backend 为例子。 Backend API 我们需要实现两个类来存储状态以及七个 Backend API。 ModelState ModelInstanceState ...

我不会用 Triton 系列：Triton Inference Server 简介

Triton Inference Server 定位在接触了一段时间的 Triton 之后，我认为它的定位在于模型服务，即它的主要职责和服务紧密相关，服务中常见的需求它需要做处理。比如 Batching，Sequence，Pipeline 等，再比如模型仓库的管理，模型后端引擎的管理 ...

原文：我不会用 Triton 系列：Stateful Model 学习笔记

相关推荐

相关标签