酷应用

7 papers | 多人德扑AI、手机GPU上的亚毫秒级人脸识别

百家作者：机器之心 2019-07-14 04:02:14

机器之心整理

参与：一鸣

本周有挺多重要的研究成果。数天前 CMU、Facebook 公布 AI 玩多人德州扑克取得的新进展，该研究登上了 Science。此外，谷歌博客、arXiv 上均有较受关注的全新论文，例如移动设备 GPU 上运行的亚毫秒级人脸检测模型 BlazeFace。

1.标题：Superhuman AI for multiplayer poker

作者：Noam Brown，Tuomas Sandholm
链接：https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

摘要：近几年，AI 研究取得了很大的进展，特别是在各种游戏中。扑克游戏就是其中一种。过去 AI 的基准成绩总是在双玩家的条件下取得的。然而，扑克在传统上是一个超过两个玩家的多人游戏。多人游戏总是比双人游戏带来更多的问题，而解决这些问题也被视为是 AI 研究的里程碑。在本文中，研究人员提出了一个名为 Pluribus 的 AI。AI 在六人无限德克萨斯扑克游戏中，超过了顶级人类玩家的水平。

推荐：AI 在多人德州扑克游戏上战胜了人类顶级玩家，每小时赢 1000 美元，而且训练只需要一个云计算服务器，不用 GPU，耗费不到 150 美元。论文已登「Science」。

2.标题：Adversarial Objects Against LiDAR-Based Autonomous Driving Systems

作者：Yulong Cao, Chaowei Xiao, Dawei Yang, Jing Fang, Ruigang Yang, Mingyan Liu, Bo Li
链接：https://arxiv.org/pdf/1907.05418.pdf

摘要：深度神经网络（DNN）容易受到对抗样本的攻击，这一点已经被许多研究所证明。为了证明这种攻击在现实世界构成威胁，一些研究提议生成能够迷惑分类器识别停车标志的实体贴纸或可打印贴图，如特斯拉对抗攻击实验。但是，自动驾驶系统并不仅仅是图像分类器。为了获得更清晰的感知影像，大多数自动驾驶检测系统配备有激光雷达或普通雷达（无线电探测与测距）设备，这些设备能够借助于激光束直接探查周围 3D 环境。这就提出了一个疑问：贴图干扰是否会影响激光雷达扫描的点云？

为了回答这一问题，研究者提出了一种基于优化的方法——LiDAR-Adv，以生成可以在各种场景下规避激光雷达检测系统的对抗样本，从而揭露激光雷达自动驾驶检测系统的潜在漏洞。

研究者首先使用一种基于黑盒进化的算法展示了相关漏洞，接着使用基于梯度的方法 LiDAR-Adv 探索强大的对抗样本造成的影响有多大。

为了评估 LiDAR-Adv 在现实世界中的影响，研究者对生成的对抗样本进行 3D 打印，并在百度阿波罗自动驾驶平台上测试它们。结果显示，借助于 3D 感知和产品级多阶段检测器，他们能够误导自动驾驶系统，实现不同的对抗目标。

推荐：密歇根大学、UIUC 联合百度使用 3D 打印的物体制作对抗样本，可以有效欺骗自动驾驶车辆的三维传感器。论文说明，即使是使用昂贵的激光雷达也不一定保险，提升算法本身的鲁棒性才是解决方法。

3.标题：BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

作者：Valentin Bazarevsky , Yury Kartynnik , Andrey Vakunov, Karthik Raveendran , Matthias Grundmann
链接：https://arxiv.org/pdf/1907.05047

摘要：研究人员在论文中提出了一种名为「BlazeFace」的人脸识别检测器。这一模型轻量化且性能很好，可以在移动设备 GPU 中进行推断，运行硬件是速度为 200-1000+ FPS 的旗舰设备。这样一种模型可以应用在任何需要精确人脸区域的增强现实任务上，包括 2D/3D 面部关键点或几何预估、面部特征或表情识别，和面部区域分割等。

论文的贡献包括：一个受 MobileNetV1/V2 但和模型不同的轻量级的特征抽取网络，一个对 GPU 友好的模型方案，由 Single Shot MultiBox Detector (SSD) 方案改进而来，以及一个提升后的，用于替代非最大化压缩的联合分辨率策略。

推荐：轻量化、快速且准确的人脸识别模型一直是研究的重点。谷歌的研究人员提出了一种只使用移动设备 GPU 就可以运行的模型，识别极为快速。有了这样的模型，下游相关的增强现实移动端应用可以进一步发展起来了。

4.标题：Multilingual Universal Sentence Encoder for Semantic Retrieval

作者：Yinfei Yang, Amin Ahmad
链接：https://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

摘要：研究人员提出了三种全新的通用句编码器（Universal Sentence Encoder）多语言模块，模块增加了一些额外的特性和，扩展了其应用的潜在可能。前两种模块提供了多语言模型，用于提取语义相似的文本。第一种模型的优化目标是提取性能，另一种则是更快的速度和更小的内存使用。第三种模型则专门用于 16 种语言的抽取型问答任务上，这是通用句编码器的一种全新应用。这三种多语言模块都使用多任务双重编码器框架训练，这和原本的英语通用句编码器是一样的。但是研究人员开发了一种技术，使用附加性边缘 softmax（additive margin softmax）提升双重编码器的性能。这种技术不仅可以保证迁移学习的良好表现，在语义提取任务中也表现良好。

推荐：通用句编码器相比于词向量等可以更好的转换为句子级别的表征，在涉及句相似度的抽取任务中有着广泛的应用。谷歌博客提到的这篇论文将通用句编码器的方法扩展到了多种语言，并且扩展到了问答任务——一个之前通用句编码器研究中未涉及的领域。

5.标题：Benchmarking Model-Based Reinforcement Learning

作者：Tingwu Wang、Xuchan Bao、Ignasi Clavera、Jerrick Hoang、Yeming Wen 等
链接：https://arxiv.org/pdf/1907.02057v1.pdf

摘要：人们普遍认为，基于模型的强化学习（MBRL）可能比无模型（model-free）RL 具有更强的样本效率。但是，基于模型的 RL 研究还不是那么的规范化。所以，研究者常常在自设计环境下进行实验，并且分为几个独立的研究方向，这些方向有时是闭源或者可复现的。因此，一个待解决的问题是，现有这些不同的 MBRL 算法相互之间如何执行任务。

为了促进 MBRL 方面的研究，研究者在本文中收集了一系列 MBRL 算法，并提出了特别为 MBRL 设计的 18 种基准测试环境。通过统一的问题设置（包括噪声环境），研究者对这些算法进行了基准测试。除编目性能（cataloguing performance）外，研究者探索并统一了不同 MBRL 算法之间的潜在算法区别。他们描述了未来 MBRL 研究的三项关键性挑战：动态瓶颈、规划时轴（planning horizon）困境和提前终止困境。

推荐：基于模型的强化学习研究一直缺乏标准性的基准测试，对于复现模型或性能研究造成了阻碍。多伦多大学联合 UC 伯克利，对一些强化学习模型进行了基准测试，总体性的回顾了基于模型的强化学习方法，不失为入门学习多种强化学习模型，了解模型测试基准的重要参考资料。

6.标题：Playing Go without Game Tree Search Using Convolutional Neural Networks

作者：Jeffrey Barratt、Chuanbo Pan
链接：https://arxiv.org/pdf/1907.04658.pdf

摘要：众所周知，围棋（Go）游戏在东亚国家具有很长的历史，但直到最近几年，计算机围棋（Computer Go）的表现效果才赶上人类玩家。围棋的规则虽然简单，但游戏的策略和组合却极其复杂。即使是在过去几年，依赖神经网络来评估盘面状态的新程序每秒钟依然可以探索到比职业玩家多很多量级的盘面状态。

在本文中，研究者意图通过创建卷积神经策略网络在游戏中模拟人类直觉，在不需要任何树搜索的情况下，这种方法带来的游戏效果应该可以达到或超过大多数人类玩家的水平。他们介绍了三种旨在创建强大围棋玩家的结构和训练方法：非矩形卷积（更好地学习盘面上的情势）、监督学习（在包含 53000 场职业围棋游戏的数据集上训练）和强化学习（在不同网络版本下进行的游戏中训练）。结果表明，在仅使用监督学习的情况下，研究者提出的网络就已经超过了中等水平业余玩家的技战水平。非矩形卷积和强化学习的进一步训练和实现也将进一步提升计算机围棋水平。

推荐：虽然 AlphaGo 等 AI 已经在围棋上超过人类顶级选手的水平，但其依赖树搜索的方法，需要大量的时间进行学习，消耗极大的算力资源。斯坦福大学的研究人员提出了一些深度学习的方法，在只依靠监督学习情况下就达到了人类玩家的水平。

7.标题：Unsupervised Data Augmentation for Consistency Training

作者：Qizhe Xie、Zihang Dai、Eduard Hovy、Minh-Thang Luong、Quoc V. Le
链接：https://arxiv.org/pdf/1904.12848

摘要：在本文中，研究者提议在半监督学习环境中将数据增广应用于未标注数据。他们将提出的方法称为无监督数据增广或者 UDA，该方法促使模型预测在未标注样本和增广未标注样本之间保持一致。不同于以往采用高斯噪声（Gaussian noise）或 dropout 噪声等随机噪声的方法，UDA 出现一点小的变化，它采用了 SOTA 数据增广方法产生的更大且更真实噪声。即使是在标注集极小的情况下，这一小的变化也使得 6 项语言任务和 3 项视觉任务的效果呈现重大改善。

例如，在 IMDb 文本分类数据集上，UDA 仅使用 20 个标注样本就实现了 4.20% 的误差率，这一数字优于 25000 个标注样本上训练的 SOTA 模型。在标准半监督学习基准 CIFAR-10 和 SVHN 数据集上，UDA 超越了以往所有的同类方法，其中仅使用 4000 个样本在 CIFAR-10 数据集上实现了 2.7% 的误差率，仅使用 250 个样本在 SVHN 数据集上实现了 2.85% 的误差率，这些数字几乎与全集（较 CIFAR-10 和 SVHN 数据集大一到两个数量级）上训练的模型性能相当。此外，UDA 在 ImageNet 等大规模数据集上的表现也非常好。当使用 10% 的标注集训练时，UDA 将 top-1/top-5 准确率从 55.1/77.3% 提升到 68.7/88.5%。对于拥有 1.3M 额外未标注数据的全 ImageNet 数据集来说，UDA 将性能从 78.3/94.4% 进一步提升到 79.0/94.5%。

推荐：这篇 Quoc V. Le 等的新论文提出了一种数据增强方法，在使用极少数据样本的情况下，达到了依赖大量数据训练才能得到的 SOTA 水平。这样的数据增强方法可以进一步启发在 few-shot 和 zero-shot 中的模型研究，进一步减少深度学习模型对数据的依赖。