Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
在任何平台上的任何应用部署和运行 AI 并规模化。
借助 NVIDIA Triton™,在任何处理器(GPU、CPU 或其他)上,对使用基于任何框架的,经过训练的机器学习模型或深度学习模型,进行推理部署。Triton 是 NVIDIA AI 平台的一部分,可通过 NVIDIA AI Enterprise 获取。这款开源软件可针对各种工作负载,实现标准化的 AI 模型部署和执行。
使用 Triton,部署基于任何主流框架的 AI 模型,包括 TensorFlow,PyTorch,Python,ONNX,NVIDIA® TensorRT™、RAPIDS™ cuML,XGBoost,scikit-learn RandomForest,OpenVINO,C++ 自定义框架等。
借助动态批处理、并发执行、最佳模型配置,音视频串流输入支持,最大限度地提升吞吐量和资源利用率。Triton 支持所有 NVIDIA GPU,x86 和 Arm® 架构 CPU 以及 AWS Inferentia。
可将 Triton 集成到 DevOps 和 MLOps 解决方案中,例如集成到 Kubernetes 实现规模化,或集成到 Prometheus 进行监测。Triton 也可以通过所有主流云平台、本地 AI 平台和 MLOps 平台获取。
NVIDIA AI Enterprise(包括 NVIDIA Triton 和 Triton Management Service),是一个安全的、生产就绪型的 AI 软件平台,提供支持、安全性和 API 稳定性,帮助企业加速开发 AI,实现收益。
购买 NVIDIA AI Enterprise 获取 NVIDIA Triton 和 Triton Management Service,以实现生产环境的推理。
您可以在 NVIDIA NGC™ 上下载 Triton 容器,也能在 GitHub 上获取其开源代码。
可以高效利用 GPU 或 CPU 资源进行模型编排,从而自动部署 Kubernetes 上多个 Triton 推理服务实例。
TensorRT-LLM 是一个开源库,用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能,并与 TensorRT 的深度学习编译器配合使用,以快速支持新模型和定制模型。
许多现代 AI 工作负载都需要执行多个模型,而且每个查询通常都需要执行预处理和后处理步骤。Triton 支持模型集成和推理管道,能够在 CPU 或 GPU 上执行模型集成的不同环节,并且可以集成多个框架的模型。
Triton 的 Forest Inference Library(FIL)后端能够在 CPU 和 GPU 上,针对基于树的模型实现高性能推理,同时兼具可解释性(SHAP 值)。该后端支持 XGBoost,LightGBM,scikit-learn RandomForest,RAPIDS cuML RandomForest 框架的模型,以及其他 Treelite 格式的模型。
PyTriton 提供了一个简单的接口,以便 Python 开发者使用 Triton 为模型、简单的处理功能乃至整个推理管道提供服务。Python 这种对 Triton 的原生支持,有助于实现机器学习模型的快速原型和测试,同时兼具性能和效率。只需一行代码即可启用 Triton,获取动态批处理、并发模型执行、以及 GPU 和 CPU 均可支持等收益。这样一来,开发者便无需设置模型库,也无需转换模型格式,现有推理管道的代码无需修改,直接使用。
NVIDIA Triton Model Analyzer 是一种工具,能够自动评估 Triton 推理服务器中的模型部署配置,例如目标处理器上的批大小、精度和并发执行实例。此工具有助于选择最优模型配置方案,以便满足应用的服务质量(QoS)要求,例如时延、吞吐量和存储要求,并缩短查找最优配置的时长。此工具还支持模型集成和多模型分析。
了解亚马逊如何借助 NVIDIA AI 将推理速度提升 5 倍,从而提高客户满意度。
了解美国运通公司如何将每天数千万笔交易的分析速度提升 50 倍,从而提高欺诈行为检测能力。
了解西门子能源公司如何提供基于 AI 的远程监控功能来发现泄漏、异常噪音等问题,从而提高巡检能力。
了解 Microsoft Teams 如何利用 Triton 来优化多种语言的实时字幕和转录功能,同时实现非常低的延迟。
了解蔚来如何将 NVIDIA Triton 集成到其自动驾驶推理管道,实现低延迟推理工作流。
Triton 是实现可扩展、高性能推理的理想选择。您可以通过阿里云,Amazon Elastic Kubernetes Service(EKS),Amazon Elastic Container Service(ECS),Amazon SageMaker,Google Kubernetes Engine(GKE),Google Vertex AI,HPE Ezmeral,Microsoft Azure Kubernetes Service(AKS),Azure Machine Learning 以及 Oracle Cloud Infrastructure 数据科学平台使用 Triton。
了解 Triton 推理服务器的主要功能,这些功能有助于您在生产环境中轻松部署、运行 AI 模型并使其规模化。
观看关于推理的 GTC 会议,入门 Triton 推理服务器。
阅读关于 Triton 推理服务器的博客。
探索 AI 推理的最新理念,企业的实际生产案例,以及现实世界中的挑战和解决方案。
及时了解 NVIDIA 最新发布的 AI 推理资讯。