酷应用

CVPR 2019 | 让机器帮你做行测题，UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN

百家作者：机器之心 2019-03-11 15:29:13

选自arXiv

作者：Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu

机器之心编译

参与：高璇、张倩

早期为机器加入高级推理的工作一直围绕着视觉问答（VQA）展开，但 VQA 所需的推理能力只处于认知能力测试圈的边缘。为了突破当前视觉推理能力的极限，UCLA 朱松纯团队基于一项更难的人类视觉推理任务——瑞文测试（RPM，例如《行测》中的图形推理题）构建了关系和类比视觉推理数据集 RAVEN。与之前使用 RPM 评估抽象推理能力的工作不同，他们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作，可以实现新型的抽象推理。

项目地址：http://wellyzhang.github.io/project/raven.html

视觉研究不仅必须包括如何从图像中提取信息，同时也是对信息的内部表征本质的探究，从而将其作为决定我们想法和行动的基础。（David Marr，1982 年 [35]）

计算机视觉应用范围非常广泛。一些计算机视觉问题明显是纯粹从视觉上「捕获」视觉信息的过程；例如，早期视觉过滤器 [5] 以 primal sketch[13] 作为中间表征，以格式塔法则（Gestalt law）[24] 作为感知组织。相比之下，其他一些视觉问题对于感知图像的要求比较琐碎，但是在关系或类比视觉推理方面能解决更普遍的问题 [16]。在这种情况下，视觉组成成为「决定我们想法和行动的基础」。

目前，大多数计算机视觉任务都聚焦于「捕获」视觉信息的过程；很少有工作重点放在后面的部分——关系或类比的视觉推理。在为人工系统配备推理能力方面，现有的一项工作围绕着视觉问答（VQA）展开 [2,22,48,58,62]。然而，VQA 所需的推理能力只处于认知能力测试圈的边缘 [7]。为了突破计算机视觉的极限，甚至人工智能（AI）的极限，在认知能力测试圈的中心，我们需要设计一个用于测量人类智能的测试来挑战、调试和改进现有的人工系统。

一个非常有效的人类视觉推理能力测试已经开发出来，被称为瑞文测试（Raven's Progressive Matrices，RPM）[28,47,52]。瑞文测试（RPM）是一项广泛应用的非文字推理能力测试，属于渐近性矩阵图。测试者需要在渐进矩阵图中根据直接观察结果进行间接抽象推理。这一测试已得到广泛认可，并被认为与真实智能高度相关 [7]。与 VQA 不同，RPM 直接位于人类智能中心 [7]，是对抽象和结构推理能力的判断 [9]，并且描述了高级智能的定义特征，即流体智能 [21]。

图 1：(a) RPM 示例。其中一项任务是根据结构和类比关系，选择出最符合逻辑的图像。每个图像都有一个底层结构。(b) 具体地说，在该问题中，这是一个由内而外的架构，外部组成是一个只有一个中心的目标分布，内部组成是一个 2×2 的网格布局。图 2.(c) 中的细节列出了 (a) 中的规则。规则的各种性质组合起来使这个问题变得难解。正确答案是 7。

图 1 显示了 RPM 问题及其结构表征。提供了由视觉上简单的元素组成的两行图形，一个必须有效地导出正确的图像结构（图 1(b)）和基本规则（图 1(c)），从而共同推理出最佳的候选图像。就所需的推理水平而言，RPM 可能比 RPM 更难：

在 VQA 中，自然语言指出了图像中需要注意的东西，但 RPM 与之不同，它仅依赖于矩阵中提供的视觉线索和对应问题本身，即找到正确的编码属性级，这已经是区分不同智力人群的一个主要因素了 [7]。
VQA 只需要空间和语义理解，但 RPM 需要在问题矩阵和答案集中进行时空联合推理。短期记忆的限制、类比能力以及结构的发现也必须考虑在内。
RPM 中的结构使规则的组合更加复杂。VQA 的问题仅编码相对简单的一阶推理，但 RPM 通常包括更复杂的逻辑，甚至使用递归。通过在不同级别编写不同的规则，推理过程可能会非常困难。

为了突破当前视觉系统推理能力的极限，UCLA 朱松纯团队生成了一个新的数据集，以促进该领域的进一步研究。他们将这个数据集称为关系和类比视觉推理数据集（RAVEN），以纪念 John Raven 开创 RPM 的工作 [47]。综上所述：

RAVEN 由 1,120,000 个图像和 70,000 个 RPM 问题组成，均匀分布在 7 种不同的图形配置中。
每个问题都有 16 个树结构注释，在整个数据集中共计 1,120,000 个结构标签。
研究者设计了 5 个规则管理属性和 2 个噪声属性。每个规则管理属性至少包含 4 个规则之一，同一组中的对象共享同一组规则，共计 440,000 个规则注释，每个问题平均有 6.29 个规则。

RAVEN 数据集本身设计为轻视觉识别、重推理的形式。每个图像仅包含一组简单灰度物体，边界清晰没有遮挡。与此同时，规则是逐行应用的，每个属性可有一个规则，以应对视觉系统在短期记忆和组成成分推理中的主要弱点 [22]。

一个明显的悖论是：在这个组合和结构化的 RPM 问题中，以前的工作没有提供结构注释（如[3,55]）。因此，研究者开始在 RPM 中建立视觉推理和结构推理之间的语义联系。他们将每个问题实例与属性随机图像语法（A-SIG）[12,30,43,56,60,61] 的句子相对应，并将数据生成过程分解为两个阶段：第一阶段从预定义的 A-SIG 中对句子进行采样，第二阶段基于句子渲染图像。这种结构化设计使数据集非常多样化，且易于扩展，从而可以在不同的图形配置中进行泛化测试。更重要的是，数据生成流程为他们提供了丰富的密集注释，尤其是图像空间中的结构。视觉和结构表征之间的这种语义联系，将问题分解为图像理解和树或图级推理，从而有了新的可能 [26,53]。实验证明，采用简单的结构推理模块，将视觉层级的理解和结构层级的推理结合起来，可以显著提高模型在 RPM 中的性能。

图 2：RAVEN 创建过程。(b) 说明了 A-SIG 中使用的语法生成规则。(c) 显示布局和实体具有关联的属性。(a) 给定随机采样的规则组合，首先修剪语法树（修剪透明分支）。然后将图像结构与来自 (b) 的属性值一起采样，用黑色表示，并应用规则集 (a) 生成单个行。重复该过程三次得到 (d) 中的整个问题矩阵。(e) 最后对约束属性进行抽样，并在正确的答案中改变它们以打破规则并获得候选答案集。

图 4：推荐的 RAVEN 数据集中 7 种不同图形配置的示例。

表 2：人类受试者和计算机中每个模型的测试准确度。Acc 表示每个模型的平均精度，其他列显示不同图形配置下的模型精度。L-R 表示左-右，U-D 表示上-下，O-IC 表示圆外-圆内，O-IG 表示网外-网内。注意，完美的解决方案可以访问规则运算并搜索符号问题表征。

论文：RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

论文链接：https://arxiv.org/abs/1903.02741

涉及低级感知的基本视觉任务（例如物体识别、检测和追踪）已经取得了显著的进展。不幸的是，就更高级别的视觉问题而言，人工视觉系统与人类智能之间仍存在巨大的性能差距，尤其是推理问题。早期为机器配备高级推理的工作一直围绕着视觉问答（VQA）展开，这是一项将视觉和语言理解联系起来的典型任务。在此项工作中，我们提出了一个新的数据集，它基于瑞文测试（RPM），旨在通过将视觉与结构、关系和类比推理在层级表征中相关联来提升机器智能。与之前使用 RPM 测量抽象推理的工作不同，我们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作，可以实现新型的抽象推理。在这个新提出的数据集中，我们评估了使用现代计算机视觉的机器的推理能力。此外，我们还提供人类表现作为参考。最后，我们通过合并一个结合视觉理解和结构推理的简单神经模块，在所有模型上都实现了改进。