酷应用

UCloud AI 在线服务推出GPU版本主攻低延时场景

百家作者：Ucloud 2018-08-07 09:44:52

前言

自去年5月开启免费公测和正式上线以来，UCloud AI在线服务UAI-Inference已帮助许多初创企业、大型传统企业降低了AI技术门槛和成本投入，有利抓住了人工智能风口。UAI-Inference因其易部署、易运维、支持多种主流AI框架以及安全可靠的特性，可适用于机器学习、视频图像识别、自然语言处理等多种AI应用场景。

随着人工智能技术演进和AI细分化领域日趋成熟，对云服务商的AI产品能力也提出了更高要求。近日，UCloud AI在线服务平台推出独占型GPU推理节点，提供高性能AI在线推理服务。GPU在线服务节点主要面向对深度学习AI在线推理服务有低延时要求的应用场景。

P40高性能GPU加速卡提供算力保障

人工智能爆发的第三波浪潮离不开计算能力的提升，而算力提升的背后离不开GPU的广泛使用。UAI-Inference的GPU节点采用NVIDIA P40高性能GPU加速卡，提供稳定、高效的算力保障。

UAI-Inference GPU在线服务平台同UAI-Inference CPU平台一样，可提供海量计算节点、自动负载均衡、节点容灾、服务监控、服务版本灰度管理等功能。同时，UAI-Inference GPU在线服务支持用户随时调整在线服务GPU节点规模，实时应对线上业务负载变化。

UAI-Inference GPU在线服务平台基于Docker容器技术实现，用户仅需提供在线推理的容器实现即可。在线服务平台的GPU节点预制NVIDIA GPU以及Docker的执行环境，可以实现服务集群快速扩容。另外，UAI 团队提供主流AI框架的基础容器镜像，支持范围包括：TensorFlow/Caffe/MXNet/Keras等。

三大场景延时降低效果显著

UAI-Inference GPU在线服务利用P40 GPU强劲性能可以将在线Inference的效率提升10倍以上。

例如，图像分类场景利用UAI-Inference独占型GPU在线服务，Inception-V3和ResNet101两个算法模型在batchsize=1时的推理延时，相对8C8G的CPU云主机性能有明显提升，可以将请求延时降低至50ms以内，如下图所示：