酷应用

2小时, 从权游到自动驾驶, 英伟达创始人黄仁勋北京演讲说得最多的是“省钱”！(精华ppt)

百家作者：大数据文摘 2017-09-26 05:02:20

大数据文摘作品

作者：Aileen, 魏子敏，龙牧雪，崔云柯

“Saving money（省钱）！”

这两个字可能是今天上午英伟达GTC 2017北京场，黄仁勋在两小时的keynote演讲中提到最多的一句话。

这两个字也道出了本次大会英伟达想要展示给中国听众的精华：NVIDIA的愿景是为所有AI研究人员打造一个功能强大，又经济高效的AI计算平台。

9月26日，英伟达GPU科技大会GTC 2017世界巡回北京场开幕。今天上午，大会的主题演讲依旧由英伟达创始人、总裁兼首席执行官黄仁勋带来，探讨了在AI时代下，英伟达如何引领新格局。演讲中，他宣布了全球首款可编程的AI推理加速器TensorRT3的发布，介绍了英伟达开放的自动驾驶计算平台NVDIA DRIVE，还展示了从权力的游戏到AI城市，英伟达产品加速AI的案例。此外黄仁勋重磅宣布了与中国众多企业的合作，包括阿里巴巴、百度、腾讯、华为、浪潮、联想等。

本次大会将持续三天时间，之后，英伟达GTC 2017还将去到慕尼黑、特拉维夫、台北、华盛顿特区和东京等地区。

大数据文摘第一时间为各位带来本次演讲的精华内容及演讲PPT：

英伟达愿景：适用全球的NVIDIA AI计算和AI推理平台

黄仁勋激动的跑上台，大喊：Welcome Beijing！接下来就开始了自己2小时的演讲。

他首先宣布中国的顶级云服务提供商均采用NVIDIA AI计算，阿里巴巴、百度、和腾讯已在各自的云服务中采用NVIDIA Volta GPU。研究人员和初创公司现在可以租用云端最先进的AI基础设施，免去建造超级计算机的复杂性和高昂费用。省钱！

NVIDIA的愿景是为所有AI研究人员打造一个功能强大而高效的AI计算平台。NVIDIA将积极投入，全力推进"统一架构“CUDA GPU计算，从而保护开发人员在其平台上的重大投资。他表示英伟达通过Inception计划，支持了1900家初创公司创建AI的未来。

黄仁勋称AI推理是AI领域的下一个巨大挑战。AI是软件的未来，可以让我们重新畅想各种服务，软件，计算机和设备。经过训练的网络将展现出惊人的智慧并融入万亿物联网设备中。

AI推理平台必须具备可编程性，才能运用种类繁多且不断演进的网络框架。新的架构、更深的网络、新的分层设计会继续提升CNN的性能。

近来，网络设计正在经历爆炸性的增长：

用于长序列模式分类的RNN (如LSTM)实现了超越人类的语音识别和语言翻译能力；
GAN：一个网络通过训练进行判别，另一个网络则不断学习生成示例以欺骗判别器，最终的生成器可生成图像、语音、取出噪音；
强化学习通过反复的试错、并且根据价值函数来进行奖惩，机器人可以利用强化学习进行行为学习。

同时，智能机器也正在经历着爆发性增长：AI会将智能注入到2000万云服务器、上亿台汽车和制造机器人中。最终，以万亿的物联网设备和传感器将只能地监测一切，从心率到血压监测，到需维修设备的振动监测。

AI推理平台必须可扩展，以解决海量计算的性能、功耗、和成本需求 - 省钱！

重磅宣布NVDIA TENSORRT 3 的发布，全球首款可编程的AI推理加速器

黄教主随后非常激动地宣布了NVIDIA TENSORRT3的发布。TensorRT可编程，且支持所有框架，并能加速现有和未来的网络架构。TensorRT可编译到广泛的目标CUDA GPU中，从120 TOPS到1 TOPS，从250瓦到低于1瓦。同时TensorRT也是一款适用于CUDA GPU的优化神经网络编译器，可利用CUDA深度学习指令集创建运行时。它可以确定每个目标GPU的最佳策略，对数值精度、网络层、和张量的去除和融合、快速内核以及内存管理进行优化。

从云、数据中心、PC、汽车到机器人，TensorRT皆能在NVIDIA全系列平台用最低耗能获得最优效果。

这张图表解释了TensorRT3的卓越性能。运行在Volta上的TensorRT3在图像分类方面比最快的CPU还要快40倍，在语言翻译方面则要快140倍。

神经网络的响应时间或处理延时会对服务质量造成直接影响。运行在V100上的TensorRT在处理图像时可实现7ms的延时，在处理语音时延时不到200ms，这是标准云服务的理想目标。单靠CPU是无法实现的。AI推理降低数据中心整体拥有成本,在不远的未来，数据中心内的每一个查询和工作负载都将涉及一个或多个DNN推理，而推理吞吐量将直接影响数据中心的成本。划重点，能省钱！

而且你的数据中心不用再那么臃肿了！（从上图变成下图）

黄教主对于数据中心体型的这一变化颇为欣喜，并且现场展示了两者在体型上的巨大变化。他在两张图片之间来回切换并且表示，我可以看这个看一整天。

神经网络的响应时间或处理延时会对服务质量造成直接影响。运行在V100上的TensorRT在处理图像时可实现7ms的延时，在处理语音时延时不到200ms，这是标准云服务的理想目标，单靠CPU无法实现。

AI推理降低数据中心整体拥有成本：在不远的将来，数据中心内的每个查询和工作负载都将涉及一个或多个DNN推理，推理吞吐量直接影响数据中心成本。

从权力的游戏声音识别到AI城市 -- 英伟达无处不在

接下来，黄仁勋展示了应用最新CPU的三个案例。

黄教主展示的第一个案例是一个关于图像推理的案例。这个演示展现了用最新的CPU和通过TensorRT 3优化V100的推理吞吐量比较。（网络为Resnet-152并由TensorFlow进行训练）

使用使用最新的CPU的识别器识别速度翻倍，可以在一秒钟识别超过200张图像。

黄教主接下来展示了另外一个案例，关于语音推理。他介绍了一家叫做“Deep Gram的公司，这是一家目标客户为针对安全或隐私原因需要在内部部署语音引擎的初创企业。

这家公司语音识别一个很有趣的应用场景是对权力的游戏里的台词进行语音搜索。黄教主也在现场展示了这一搜索的炫酷之处。

权力的游戏：搜索进入当时的那句台词的场景、集数

最后一个案例是关于AI城市：助力中国建设更智慧、更安全的城市。

确保城市安全是全球的首要任务之一到2020年，城市中的实时摄像头将达到10亿，光靠人力监控这些摄像头是不现实的，AI是唯一的解决方案。AI城市是一个巨大的AI推理挑战，它可能需要使用大约1000万个Tesla V100 GPUs来监控10亿台摄像头。

黄仁勋宣布海康威视携手 NVDIA共建 AI城市。此外，大华、华为和阿里巴巴都提供基于平台的视频解决方案。海康威视已经在端到端解决方案中采用 NVDIA平台，大华的方案为大型活动提供了数以百计的虚拟保安，华为的方案用于监控交通流量，阿里巴巴的解决方案可以监控交通堵塞并改善交通状态。

深度学习需要海量的数据，但不是每个人都可以获取如此庞大的数据量。迁移学习可以利用同一个问题学习到的知识来解决另一个不同的相关问题，而不需要使用大量数据来训练新的网络。这有助于提高城市的安全性，找到失踪人员，改善交通环境和加强执法能力。

大会上，黄仁勋还宣布了使用NVIDIA GPU的中国公司，他说，中国拥有世界上最庞大和最活跃的互联网用户群，并且中国的互联网公司是AI 领域的全球领导者。他们正在竞相把 AI 融合到商业、社交、新闻、语音、时时视频和图像共享中。中国的顶级互联网公司都采用了NVDIA 的可编程推理加速平台来支持呈指数级增长的 AI工作负载，包括阿里巴巴、腾讯、百度、京东和科大讯飞等。

AI最大的贡献之一：自动驾驶领域的变革

黄仁勋表示，自动驾驶汽车的发明将是AI最大的贡献之一。自动驾驶将催生新的出租车服务，帮助卡车司机减轻压力、增加运输距离并减少事故。自动驾驶甚至能改变车辆的形态——在飞机和汽车之间使用自动驾驶技术，汽车和飞机的边界将会变得模糊。这是由NVDIA 技术驱动的 AirBus 飞行汽车。

黄仁勋介绍了英伟达开放的自动驾驶计算平台。NVDIA DRIVE是一个为自动驾驶行业带来变革的端到端品牌,汽车制造商将训练汽车,共享和车队服务将训练AI用于管理车队。自动驾驶计算机可以支持L3、F4和L5级。开放软件栈包含了从ASIL-D OS、深度学习、计算机视觉SDK到自动驾驶行动。

DRIVE AV是 NVDIA 开发的自动驾驶应用。环绕摄像头、雷达和激光雷达的传感数据融合，多种深度学习和计算机视觉算法将为L4和L5级别自动驾驶技术提供所需的多样性和冗余性。这一系统可以做到3D识别移动物体的长宽高、与自己的距离等，下面是一个酷炫的展示demo▼

NVDIA DRIVE是最前沿的深入学习和计算机视觉计算机，可以让新型的初创公司设计新的算法和软件。145家初创公司正在研制基于NVDIA DRIVE 的自动驾驶汽车、卡车、高清制图及服务。比如Zoox正打造一个全新的智能出租车及相应服务。

自主机器新纪元：推出全球首款自主机器处理器

黄仁勋称，英伟达正致力于设计许多类型的自主机器,他能感知周围的环境,理解他的处境以及做出合理响应。计算挑战性在于实时处理,丰富的传感接口,深度学习推理,高性能并行计算和高能效的要求。

他还表示，英伟达设计了全球首款自主积极的处理器,我们称之为Xavier。Xavier是迄今为止最为复杂的片上系统——将于18年第一季度早期接触合作伙伴提供;18年第四季度全面推出。

他继续宣布了京东X选择NVDIA实现其自助机器,机器人技术将会革新制造,物流和配送行业。京东作为全球最大的零售和物流运营商之一，京东采用了英伟达的Jetson平台。Xavier将成为下一代Jetson的片上系统（SOC）

教机器人与外部世界交互和执行复杂的任务是一个未解决的难题。相信随着深入学习和AI的突破,这个问题的最终必将得以解决。但是当机器人学习执行具体任务的过程中,他们可能会对周边的失误造成损坏,而且需要很长的训练周期。我们需要创建一个可供机器人学习的虚拟世界,一个看起来向现实世界,并遵守物理学定律的世界,机器人可以在其中超实时的学习。他们把这个虚拟机器人仿真环境称之为Isaac Lab。其中，Issac的命名是来自牛顿。NVDIA Xavier——全球首款自动机器处理器将在第一季度发布样片，并将揭开人工智能时代的新篇章。