CVPR 2019 | 让机器帮你做行测题,UCLA朱松纯团队提出关系和类比视觉推理数据集RAVEN

百家 作者:机器之心 2019-03-11 15:29:13

选自arXiv

作者:Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu

机器之心编译

参与:高璇、张倩


早期为机器加入高级推理的工作一直围绕着视觉问答(VQA)展开,但 VQA 所需的推理能力只处于认知能力测试圈的边缘。为了突破当前视觉推理能力的极限,UCLA 朱松纯团队基于一项更难的人类视觉推理任务——瑞文测试(RPM,例如《行测》中的图形推理题)构建了关系和类比视觉推理数据集 RAVEN。与之前使用 RPM 评估抽象推理能力的工作不同,他们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作,可以实现新型的抽象推理。


项目地址:http://wellyzhang.github.io/project/raven.html


视觉研究不仅必须包括如何从图像中提取信息,同时也是对信息的内部表征本质的探究,从而将其作为决定我们想法和行动的基础。(David Marr,1982 年 [35]


计算机视觉应用范围非常广泛。一些计算机视觉问题明显是纯粹从视觉上「捕获」视觉信息的过程;例如,早期视觉过滤器 [5] 以 primal sketch[13] 作为中间表征,以格式塔法则(Gestalt law)[24] 作为感知组织。相比之下,其他一些视觉问题对于感知图像的要求比较琐碎,但是在关系或类比视觉推理方面能解决更普遍的问题 [16]。在这种情况下,视觉组成成为「决定我们想法和行动的基础」。


目前,大多数计算机视觉任务都聚焦于「捕获」视觉信息的过程;很少有工作重点放在后面的部分——关系或类比的视觉推理。在为人工系统配备推理能力方面,现有的一项工作围绕着视觉问答(VQA)展开 [2,22,48,58,62]。然而,VQA 所需的推理能力只处于认知能力测试圈的边缘 [7]。为了突破计算机视觉的极限,甚至人工智能(AI)的极限,在认知能力测试圈的中心,我们需要设计一个用于测量人类智能的测试来挑战、调试和改进现有的人工系统。


一个非常有效的人类视觉推理能力测试已经开发出来,被称为瑞文测试(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文测试(RPM)是一项广泛应用的非文字推理能力测试,属于渐近性矩阵图。测试者需要在渐进矩阵图中根据直接观察结果进行间接抽象推理。这一测试已得到广泛认可,并被认为与真实智能高度相关 [7]。与 VQA 不同,RPM 直接位于人类智能中心 [7],是对抽象和结构推理能力的判断 [9],并且描述了高级智能的定义特征,即流体智能 [21]。


图 1:(a) RPM 示例。其中一项任务是根据结构和类比关系,选择出最符合逻辑的图像。每个图像都有一个底层结构。(b) 具体地说,在该问题中,这是一个由内而外的架构,外部组成是一个只有一个中心的目标分布,内部组成是一个 2×2 的网格布局。图 2.(c) 中的细节列出了 (a) 中的规则。规则的各种性质组合起来使这个问题变得难解。正确答案是 7。


图 1 显示了 RPM 问题及其结构表征。提供了由视觉上简单的元素组成的两行图形,一个必须有效地导出正确的图像结构(图 1(b))和基本规则(图 1(c)),从而共同推理出最佳的候选图像。就所需的推理水平而言,RPM 可能比 RPM 更难:


  • 在 VQA 中,自然语言指出了图像中需要注意的东西,但 RPM 与之不同,它仅依赖于矩阵中提供的视觉线索和对应问题本身,即找到正确的编码属性级,这已经是区分不同智力人群的一个主要因素了 [7]。

  • VQA 只需要空间和语义理解,但 RPM 需要在问题矩阵和答案集中进行时空联合推理。短期记忆的限制、类比能力以及结构的发现也必须考虑在内。

  • RPM 中的结构使规则的组合更加复杂。VQA 的问题仅编码相对简单的一阶推理,但 RPM 通常包括更复杂的逻辑,甚至使用递归。通过在不同级别编写不同的规则,推理过程可能会非常困难。


为了突破当前视觉系统推理能力的极限,UCLA 朱松纯团队生成了一个新的数据集,以促进该领域的进一步研究。他们将这个数据集称为关系和类比视觉推理数据集(RAVEN),以纪念 John Raven 开创 RPM 的工作 [47]。综上所述:


  • RAVEN 由 1,120,000 个图像和 70,000 个 RPM 问题组成,均匀分布在 7 种不同的图形配置中。

  • 每个问题都有 16 个树结构注释,在整个数据集中共计 1,120,000 个结构标签。

  • 研究者设计了 5 个规则管理属性和 2 个噪声属性。每个规则管理属性至少包含 4 个规则之一,同一组中的对象共享同一组规则,共计 440,000 个规则注释,每个问题平均有 6.29 个规则。


RAVEN 数据集本身设计为轻视觉识别、重推理的形式。每个图像仅包含一组简单灰度物体,边界清晰没有遮挡。与此同时,规则是逐行应用的,每个属性可有一个规则,以应对视觉系统在短期记忆和组成成分推理中的主要弱点 [22]。


一个明显的悖论是:在这个组合和结构化的 RPM 问题中,以前的工作没有提供结构注释(如[3,55])。因此,研究者开始在 RPM 中建立视觉推理和结构推理之间的语义联系。他们将每个问题实例与属性随机图像语法(A-SIG)[12,30,43,56,60,61] 的句子相对应,并将数据生成过程分解为两个阶段:第一阶段从预定义的 A-SIG 中对句子进行采样,第二阶段基于句子渲染图像。这种结构化设计使数据集非常多样化,且易于扩展,从而可以在不同的图形配置中进行泛化测试。更重要的是,数据生成流程为他们提供了丰富的密集注释,尤其是图像空间中的结构。视觉和结构表征之间的这种语义联系,将问题分解为图像理解和树或图级推理,从而有了新的可能 [26,53]。实验证明,采用简单的结构推理模块,将视觉层级的理解和结构层级的推理结合起来,可以显著提高模型在 RPM 中的性能。


图 2:RAVEN 创建过程。(b) 说明了 A-SIG 中使用的语法生成规则。(c) 显示布局和实体具有关联的属性。(a) 给定随机采样的规则组合,首先修剪语法树(修剪透明分支)。然后将图像结构与来自 (b) 的属性值一起采样,用黑色表示,并应用规则集 (a) 生成单个行。重复该过程三次得到 (d) 中的整个问题矩阵。(e) 最后对约束属性进行抽样,并在正确的答案中改变它们以打破规则并获得候选答案集。


图 4:推荐的 RAVEN 数据集中 7 种不同图形配置的示例。


表 2:人类受试者和计算机中每个模型的测试准确度。Acc 表示每个模型的平均精度,其他列显示不同图形配置下的模型精度。L-R 表示左-右,U-D 表示上-下,O-IC 表示圆外-圆内,O-IG 表示网外-网内。注意,完美的解决方案可以访问规则运算并搜索符号问题表征。


论文:RAVEN: A Dataset for Relational and Analogical Visual rEasoNing


论文链接:https://arxiv.org/abs/1903.02741


涉及低级感知的基本视觉任务(例如物体识别、检测和追踪)已经取得了显著的进展。不幸的是,就更高级别的视觉问题而言,人工视觉系统与人类智能之间仍存在巨大的性能差距,尤其是推理问题。早期为机器配备高级推理的工作一直围绕着视觉问答(VQA)展开,这是一项将视觉和语言理解联系起来的典型任务。在此项工作中,我们提出了一个新的数据集,它基于瑞文测试(RPM),旨在通过将视觉与结构、关系和类比推理在层级表征中相关联来提升机器智能。与之前使用 RPM 测量抽象推理的工作不同,我们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作,可以实现新型的抽象推理。在这个新提出的数据集中,我们评估了使用现代计算机视觉的机器的推理能力。此外,我们还提供人类表现作为参考。最后,我们通过合并一个结合视觉理解和结构推理的简单神经模块,在所有模型上都实现了改进。



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接