酷应用

视错觉，神经网络的盲点

百家作者：DeepTech深科技 2018-10-15 19:48:15

点击图片查看详情↑

人类视觉是一种非凡能力。虽然已经在特定环境中演化了数百万年，但它能完成早期视觉系统从未体验过的任务。阅读就是个很好的例子，比如识别汽车、飞机、路标等人工物品。

但视觉系统也有一系列显著缺陷，即我们感受到的视错觉。实际上，研究人员已经发现有很多方法可以导致人们对颜色、尺寸、相对位置和动作产生误差。

错觉本身很有趣，因为它们可以让人深入理解视觉和感知的本质。所以，通过发现新错觉的方法来探索这些边界会大有裨益。 

图 | 同心圆？（来源：麻省理工科技评论）

这正是深度学习的用武之地。近年来，计算机已经学会识别图像中的物体和人脸，并能自己创建类似的图像。所以，很容易想象到机器视觉系统应该能够学会识别视错觉并且自己创建错觉图像。 

让我们加入肯塔基州路易斯维尔大学的罗伯特·威廉姆斯和罗曼·亚姆波尔斯基的研究。这些人尝试过这一壮举，但发现事情并不简单。目前的机器学习系统自己无法产生视错觉——至少现在不能。这是为什么呢？

首先看一些背景。深度学习的最新进展基于两项技术的进步。第一是强大神经网络的有效性，一两项编程技巧就能使它们很善于学习。

第二个是大型注释数据库的建立，计算机可以利用它学习。比如培训计算机识别人脸，它需要成千上万清晰标记的包含人脸的图片。利用那些信息，一个神经网络就能学会识别面部特征——比如两只眼睛，一个鼻子，一张嘴。更引人注目的是，两个神经网络——生成对抗网络——可以相互指导来创建逼真但又属于完全合成的人脸图像。

威廉姆斯和亚姆波尔斯基用同样的方法着手指导一个神经网络去鉴别视错觉。计算能力很容易获得，但缺少必要的数据库。所以研究人员的首要任务是创建一个用于培训的视错觉数据库。

事实证明这很困难。“静态视错觉的图像的数量只有数千种，而且错觉图像的独特种类的数量肯定非常低，或许只有数十种，”他们说。

这对当前机器学习系统来说是一项挑战。“从如此之小而又有限的数据库创建一个模型，意味着在模型生成和对人类视觉的理解上的巨大飞跃，”他们说。

所以威廉姆斯和亚姆波尔斯基编辑了有 6000 多个视错觉图像的数据库，随后培训神经网络来识别它们。然后他们创建了生成对抗网络让神经网络自己产生视错觉。

结果令人失望。“对英伟达 Tesla K80 显卡培训 7 小时之后，并没有生成有价值的图像，”研究人员说，他们还将自己的数据库供他人使用。

然而，这是一项有趣的结果。“人类已知的唯一视错觉是由进化（比如蝴蝶翅膀上的眼睛图案）或者人类艺术家所造就的，”他们指出。

这两种情况中，人类因提供重要反馈而扮演重要角色——人类能看到错觉。但机器视觉系统不能。“无法理解这些错觉背后的原理，生成对抗网络似乎不能学会如何欺骗人类视觉，”威廉姆斯和亚姆波尔斯基说。

这并不容易，因为机器视觉系统和人类视觉系统间存在重大差异。很多研究人员正在开发更接近人类视觉系统的神经网络。或许，它们能否看到错觉是一项有趣的测试。

与此同时，威廉姆斯和亚姆波尔斯基并不乐观。“似乎一个错觉图像数据集可能并不足以产生新错觉，”他们说。因此，视错觉是目前机器尚未攻破的人类经验的一个堡垒。

-End-