酷应用

苹果首次发布自动驾驶研究成果，测试结果“大大领先”于其他方法

百家作者：DeepTech深科技 2017-11-23 05:37:42

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”

上周，两位苹果的研究人员发表了一篇学术论文，概述了一种利用可训练神经网络来检测激光雷达三维点云（点数据集）中的物体的方法。虽然这种技术仍处于早期阶段，但这项技术可能会最终成熟起来，并用于提高基于激光雷达导航的自动驾驶系统的物体识别准确性。

这篇题目为“VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection”的论文，其作者是苹果的人工智能研究人员 Yin Zhou 和机器学习专家 Oncel Tuzel，论文发表在 arXiv。

研究人员在这篇论文中指出，对激光雷达阵列所产生的三维点云中的物体信息的精确检测，是现在自主导航技术的一个关键所在。从自动驾驶汽车到机器人真空吸尘器，这些自主导航的机器都需要在保证速度和精确度的前提下去探测现实世界中的三维物体。

激光雷达导航技术被证明是一种非常可靠的探测技术，其发射出去的密集激光脉冲束在碰到物体表面时会反射回雷达系统，这些反射回的激光携带着空间中物体的深度信息、方位信息等，而这些信息将会以三维点云的形式表示。

然而，由激光雷达所产生的三维点云是比较稀疏的，并且具有高度可变的点密度。因此，研究人员们所设计出来的软件难以识别检测出三维点云中所包含的物体信息。

目前常用的最先进的三维点云数据解释技术涉及到手动创建特征表示。比如将点云投射到鸟瞰透视图中，或者将数据转换为 3D 的 voxel 栅格，并对每个带有特定特征的立体像素进行编码。但是手工创建特征表示将会带来一个“信息瓶颈”问题，这会限制系统有效地利用三维点云中的物体形状信息。

而 Zhou 和 Tuzel 在论文中提出了一种深度学习技术来检测三维点云中的物体。他们建立了一个名为 VoxelNet 的学习框架，框架使用三维体素特征编码 (VFE) 层来学习三维点云中的物体形状特征。具体来说，该技术将点云分解为三维立体像素，再通过堆叠的 VFE 层对立体像素进行编码，最后呈现出一个立体表示。

两位研究人员在通过 KITTI 对他们的 VoxelNet 进行了一系列测试，这是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。在这一系列测试中，VoxelNet 被训练来检测出三种基本物体——汽车、行人和骑自行车的人。测试结果显示，VoxelNet 的检测性能比目前的其它检测方法“大大领先”。

图 | 测试结果

苹果在自动驾驶技术方面的努力始于苹果的 Titan 计划，该计划试图完全打造一款属于苹果自主品牌的自动驾驶汽车。但是在进行了大量的资金投资和人力投入后，Titan 计划却在 2016 年末陷入了困境，最终被公司搁置了。之后，苹果公司只是集中精力地去研发自动驾驶软件和部分硬件。

现在看来，此举还是有些成效的。目前苹果公司正全力以赴地将其自动驾驶系统投入实际使用，除了理论研究之外，苹果还经常在加州库珀蒂诺市的街道上测试其自动驾驶汽车试验台。另外，今年 8 月的一份报告称，苹果公司正打算研发一种自动驾驶通勤车，用于在公司园区内运送其员工往来。

尽管苹果的研究人员此次发表的研究成果重点关注于自动驾驶车辆导航，但该技术也可以应用于增强现实技术中（AR）。苹果新一代的 iPhone X 就在其前置的 TrueDepth 相机中安装了与光学雷达阵列相似的部件，该部件集成了一个小型的点投影机，用于进行精确的深度测绘操作。如果苹果把这项新技术用到 iPhone 产品中，就能为消费者带来更高层次的 AR 体验。

-End-

编辑：Theo 校审：黄珊

参考：

http://appleinsider.com/articles/17/11/22/apple-research-paper-details-lidar-based-3d-object-recognition-for-autonomous-vehicle-navigation