酷应用

百度飞桨部署月，带你畅享TensorRT高性能推理

百家作者：程序员的那些事 2021-04-16 18:17:18

部署是人工智能落地的最后一公里，但是这“一公里”往往并不好走。如何让模型落地复杂的软硬件环境，并充分实现最优的推理效果，一直是人工智能从业者们追求和努力的方向。飞桨听见所有开发者的心声，在未来的一个月中，分別准备了十节不同场景的手把手部署实操课程，其中又分为四月服务器侧部署系列5节课程，及五月端侧部署系列的5节推理实践。今天就来为大家介绍一下4月19、20日的这两节课程，想提前了解课程内容可以观看下方视频哦！

一般来说深度学习部署往往不外乎两个方面: 如何选择合适的推理预测库和相应的硬件。在预测库部分，飞桨深度学习平台除了为人工智能的应用提供了扎实的框架基座，也在预测库上根据不同场景提供了多端多平台的选择：包含了适合传统数据中心及服务器的高性能预测库Paddle Inference，其抽取了主框架的前向算子，再整合TensorRT等加速库达到最极致的性能; 基于Paddle Inference封装了gRPC, bRPC, RestfulAPI的服务化部署框架Paddle Serving，让你轻松一键完成模型即服务; 根据手机及端侧的有限内存及功耗最佳化的轻量化预测库Paddle Lite；专门设计给APP开发者的开箱即用工具LiteKit和国内唯一的前端JavaScript预测库Paddle.js等。而在硬件方面，英伟达可以说是人工智能时代的领跑者，旗下丰富的通用GPU硬件，从服务器端的Tesla系列、端侧的Jeston系列、到人手一张的消费型显卡Geforce系列，相信所有开发者都或多或少使用过。而要想充分释放你手边英伟达GPU硬件最大能力，除了使用通用的CUDA，使用TensorRT加速库也是绝对必备的！

扫描下方二维码

可立即加入技术交流群

那么飞桨与基于英伟达GPU＋TensorRT具体怎么使用，才能够充分实现更卓越的部署体验呢？飞桨将会在部署月活动课程中，详细解读如何在上述各种不同GPU硬件场景下如何利用飞桨框架更便利的启用TensorRT。举例来说，在对模型推理延时和吞吐量要求极高的数据中心及服务器部署时，飞桨将通过Paddle Inference与TensorRT的结合，实现高性能的推理。而進一步還可以搭配飞桨的模型压缩工具PaddleSlim对模型进行剪枝、量化等操作，或者使用C++的推理库取代大家比较熟悉的Python推理库，都能有效提升性能。

直播课精彩内容抢先看

最后，入门深度学习用戶或者传统制造业中常常使用的Windows系统台式机，而且Windows系统下许多开发者选用的C#编程环境，这类场景中如何结合TensorRT做推理呢？又如何解决编译环境通常比较复杂的问题？相关的教程资源网络上还比较少，但是飞桨部署月的课程都会为大家详细讲解。更多精彩的內容，欢迎大家踊跃报名，我们4月19-20日两天直播间见！