NVIDIA Triton 推理服务器

在任何平台上的任何应用部署和运行 AI 并规模化。

适用于各种 AI 工作负载的推理

借助 NVIDIA Triton™,在任何处理器(GPU、CPU 或其他)上,对使用基于任何框架的,经过训练的机器学习模型或深度学习模型,进行推理部署。Triton 是 NVIDIA AI 平台的一部分,可通过 NVIDIA AI Enterprise 获取。这款开源软件可针对各种工作负载,实现标准化的 AI 模型部署和执行。 

探索 Triton 的优势

支持所有训练和推理框架

使用 Triton,部署基于任何主流框架的 AI 模型,包括 TensorFlow,PyTorch,Python,ONNX,NVIDIA® TensorRT、RAPIDS™ cuML,XGBoost,scikit-learn RandomForest,OpenVINO,C++ 自定义框架等。

可在任何平台上实现高性能推理

借助动态批处理、并发执行、最佳模型配置,音视频串流输入支持,最大限度地提升吞吐量和资源利用率。Triton 支持所有 NVIDIA GPU,x86 和 Arm® 架构 CPU 以及 AWS Inferentia。 

专为 DevOps 和 MLOps 设计的开源软件

可将 Triton 集成到 DevOps 和 MLOps 解决方案中,例如集成到 Kubernetes 实现规模化,或集成到 Prometheus 进行监测。Triton 也可以通过所有主流云平台、本地 AI 平台和 MLOps 平台获取。 

企业级安全性、可管理性和 API 稳定性

NVIDIA AI Enterprise(包括 NVIDIA Triton 和 Triton Management Service),是一个安全的、生产就绪型的 AI 软件平台,提供支持、安全性和 API 稳定性,帮助企业加速开发 AI,实现收益。

Triton 入门

购买 NVIDIA AI Enterprise 获取 Triton 来实现生产环境的 AI 部署

购买 NVIDIA AI Enterprise 获取 NVIDIA Triton 和 Triton Management Service,以实现生产环境的推理。

下载容器和代码用于项目开发

您可以在 NVIDIA NGC™ 上下载 Triton 容器,也能在 GitHub 上获取其开源代码。

Triton Management Service

可以高效利用 GPU 或 CPU 资源进行模型编排,从而自动部署 Kubernetes 上多个 Triton 推理服务实例。

功能和工具

大型语言模型推理

TensorRT-LLM 是一个开源库,用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能,并与 TensorRT 的深度学习编译器配合使用,以快速支持新模型和定制模型。

模型集成

许多现代 AI 工作负载都需要执行多个模型,而且每个查询通常都需要执行预处理和后处理步骤。Triton 支持模型集成和推理管道,能够在 CPU 或 GPU 上执行模型集成的不同环节,并且可以集成多个框架的模型。

基于树的模型

Triton 的 Forest Inference Library(FIL)后端能够在 CPU 和 GPU 上,针对基于树的模型实现高性能推理,同时兼具可解释性(SHAP 值)。该后端支持 XGBoost,LightGBM,scikit-learn RandomForest,RAPIDS cuML RandomForest 框架的模型,以及其他 Treelite 格式的模型。

NVIDIA PyTriton

PyTriton 提供了一个简单的接口,以便 Python 开发者使用 Triton 为模型、简单的处理功能乃至整个推理管道提供服务。Python 这种对 Triton 的原生支持,有助于实现机器学习模型的快速原型和测试,同时兼具性能和效率。只需一行代码即可启用 Triton,获取动态批处理、并发模型执行、以及 GPU 和 CPU 均可支持等收益。这样一来,开发者便无需设置模型库,也无需转换模型格式,现有推理管道的代码无需修改,直接使用。

NVIDIA Triton Model Analyzer

NVIDIA Triton Model Analyzer 是一种工具,能够自动评估 Triton 推理服务器中的模型部署配置,例如目标处理器上的批大小、精度和并发执行实例。此工具有助于选择最优模型配置方案,以便满足应用的服务质量(QoS)要求,例如时延、吞吐量和存储要求,并缩短查找最优配置的时长。此工具还支持模型集成和多模型分析。

客户案例

了解亚马逊如何借助 NVIDIA AI 将推理速度提升 5 倍,从而提高客户满意度。

了解美国运通公司如何将每天数千万笔交易的分析速度提升 50 倍,从而提高欺诈行为检测能力。

了解西门子能源公司如何提供基于 AI 的远程监控功能来发现泄漏、异常噪音等问题,从而提高巡检能力。

了解 Microsoft Teams 如何利用 Triton 来优化多种语言的实时字幕和转录功能,同时实现非常低的延迟。

了解蔚来如何将 NVIDIA Triton 集成到其自动驾驶推理管道,实现低延迟推理工作流。

更多资源

获取简介

了解 Triton 推理服务器的主要功能,这些功能有助于您在生产环境中轻松部署、运行 AI 模型并使其规模化。

倾听专家高见

观看关于推理的 GTC 会议,入门 Triton 推理服务器。 

探索技术博客

阅读关于 Triton 推理服务器的博客。 

查看电子书

探索 AI 推理的最新理念,企业的实际生产案例,以及现实世界中的挑战和解决方案。 

及时了解 NVIDIA 最新发布的 AI 推理资讯。