UCloud AI 在线服务推出GPU版本 主攻低延时场景

百家 作者:Ucloud 2018-08-07 09:44:52

前言

自去年5月开启免费公测和正式上线以来,UCloud AI在线服务UAI-Inference已帮助许多初创企业、大型传统企业降低了AI技术门槛和成本投入,有利抓住了人工智能风口。UAI-Inference因其易部署、易运维、支持多种主流AI框架以及安全可靠的特性,可适用于机器学习、视频图像识别、自然语言处理等多种AI应用场景。



随着人工智能技术演进和AI细分化领域日趋成熟,对云服务商的AI产品能力也提出了更高要求。近日,UCloud AI在线服务平台推出独占型GPU推理节点,提供高性能AI在线推理服务。GPU在线服务节点主要面向对深度学习AI在线推理服务有低延时要求的应用场景。


P40高性能GPU加速卡提供算力保障


人工智能爆发的第三波浪潮离不开计算能力的提升,而算力提升的背后离不开GPU的广泛使用。UAI-Inference的GPU节点采用NVIDIA P40高性能GPU加速卡,提供稳定、高效的算力保障。


UAI-Inference GPU在线服务平台同UAI-Inference CPU平台一样,可提供海量计算节点、自动负载均衡、节点容灾、服务监控、服务版本灰度管理等功能。同时,UAI-Inference GPU在线服务支持用户随时调整在线服务GPU节点规模,实时应对线上业务负载变化。


UAI-Inference GPU在线服务平台基于Docker容器技术实现,用户仅需提供在线推理的容器实现即可。在线服务平台的GPU节点预制NVIDIA GPU以及Docker的执行环境,可以实现服务集群快速扩容。另外,UAI 团队提供主流AI框架的基础容器镜像,支持范围包括:TensorFlow/Caffe/MXNet/Keras等。



三大场景延时降低效果显著


UAI-Inference GPU在线服务利用P40 GPU强劲性能可以将在线Inference的效率提升10倍以上。


例如,图像分类场景利用UAI-Inference独占型GPU在线服务,Inception-V3和ResNet101两个算法模型在batchsize=1时的推理延时,相对8C8G的CPU云主机性能有明显提升,可以将请求延时降低至50ms以内,如下图所示:



针对文字检测场景,利用UAI-Inference独占型GPU在线服务,CTPN和EAST两个算法模型在batchsize=1时的推理延时,相对8C8G的CPU云主机性能有明显提升,可以将请求延时从秒级优化至100ms级,如下图所示:



针对目标检测场景,利用UAI-Inference独占型GPU在线服务,Fast RCNN算法模型在batchsize=1时的推理延时,相对8C8G的CPU云主机性能有明显提升,可以将请求延时降低接近5倍,如下图所示:



弹性付费成本更低


目前,主要的人工智能应用场景的实现方式之一是基于云端AI,即用户通过网络将要处理的数据上传到云平台,在云平台大规模计算并进行建模、识别等处理,最后再将计算结果传到本地。该方式的主要优势在于弹性可快速部署,能随时根据用户的实际业务需求对计算节点进行调整。


UAI-Inference GPU在线服务平台针对业务处于高峰或低峰的不同阶段,支持用户随时调整GPU集群的节点数量,对GPU集群进行横向扩展和回缩。因此用户可以按照实际需求调整资源,无需担心资源闲置浪费。此外,还提供精确到分钟的计费维度,独占服务P40 GPU节点仅0.085元/节点*分钟。


人工智能的发展前景被越来越看好,云服务商作为企业AI转型的基础设施支撑平台,将会面临更多挑战,但为了进一步满足用户的需求,UCloud将在探索AI产品的道路上不断创新。




—End—

点击“阅读原文”,了解更多UAI系列产品信息。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接