酷应用

Nature经典回顾：大脑中统一的物体空间模型

百家作者：人工智能学家 2022-12-12 20:54:40

导语

大脑能够轻而易举的完成物体识别，这一过程主要在大脑的下颞叶皮层进行。研究已经发现下颞叶皮层存在面孔、身体、场景等类别选择性区域，然而，仍有大部分下颞叶皮层未发现已知的功能特异性。这就带来一系列问题：未被理解的大片区域编码了何种信息？物体的视觉信息在下颞叶皮层是根据何种一般性原理进行表征的？2020年发表于Nature的一篇文章利用功能磁共振成像技术、微电刺激、电生理学和深度神经网络，研究了猕猴大脑下颞叶皮层的组织结构。该研究基于深度神经网络建立了一个低维物体空间来描述物体，下颞叶神经元对这些物体的响应显示出神经元的计算过程可以表征为在物体空间上某个轴的投射。从形态上来说，这些神经元因为相似性而聚集在一起，形成了一个对物体空间描述的地图。这张地图在下颞叶里至少重复了三次；此外，这些细胞包含了足够的信息，具有充分的编码能力，可以借助深度神经网络重构出物体。本研究的结果提供了一个可计算并且统一的物体空间模型，该模型不仅可以解释已有的实验结果，并且可以为未来的实验结果提供预测。

在集智俱乐部 NeuroAI 读书会上，北京大学心理与认知科学学院研究员、论文第一作者鲍平磊对这篇论文进行了深入解读。加入读书会即可解锁讲座录播，与老师同学交流。NeuroAI读书会聚焦在视觉、语言和学习领域的神经科学与人工智能交叉研究，欢迎感兴趣的朋友参加。

物体识别、深度神经网络

来源：集智俱乐部

作者：张慧

编辑：邓一雪

论文标题：
A map of object space in primate inferotemporal cortex
论文地址：
https://www.nature.com/articles/s41586-020-2350-5

1.物体识别与下颞叶皮层

物体识别，即为不同的视觉特征分配不同标签的过程，是我们通过视觉信息理解世界的核心能力。它是很多与物体有关的神经过程的基础，包括意识、注意力、视觉记忆、决策和语言等。对于大脑而言，下颞叶皮层主要完成物体识别这一任务。已有研究表明下颞叶皮层存在若干特殊的解剖区域，如面部选择区、身体选择区、场景选择区等。但是，这些区域仅占下颞叶皮层的一小部分，仍有大部分区域没有展现出任何已知的功能特异性。这些未被理解的大片区域编码了什么信息？能否找到下颞叶对于物体空间识别的一般性组织原则？视觉皮层里大部分区域的功能组织都是由视网膜拓扑来决定，颞叶区是否也继承了这一组织特性？

该研究的研究者认为这一假说可取之处在于认为下颞叶存在层级结构，但是这一假说不能解释为什么面部选择区会在这一特定位置；另有研究认为下颞叶组织决定于物体有无生命以及物体的实际大小，但这一假说不能解释物体的层级结构；更加复杂的模型，如从语义角度出发构建的模型等不具备一般性。因此，该研究并未采取猜测下颞叶皮层未定义的区域到底偏好哪种特征的方法，而是从连接入手，定义“无主之地”，结合微电刺激和脑功能成像的方法，寻找除了微电刺激位点外还有哪些下颞叶区域被激活，找到新的网络，再研究其特征，建立统一模型。

2. 找到新的网络并研究其特性

首先，研究者在“无主之地”插入微电刺激，同时结合脑功能成像，从功能连接的角度找到了新的网络Network X，包含NML1、NML2、NML3三个区域。为了探究Nnetwork X的物体选择性，研究者用包含6个类别的51种不同物体（每个物体有24个视角）的图像作为刺激集，分析单个神经元对这些刺激的响应。结果显示NML1、NML2、NML3有高度相似的物体选择性，但是该网络并不像脸网络或者身体网络那样偏好某一类别。

为了探究不同动物个体中是否存在同样的Network X，研究者利用脑功能成像，向被试呈现该网络最喜欢的物体和最不喜欢的物体，对比二者引起的大脑响应，结果显示视觉刺激得到的结果与微电刺激得到的结果有高度重合，证明了视觉刺激的方式可以找到同样的Network X，并且被试2存在与被试1同样的network X。

以上结果证明了Network X中NML1、NML2、NML3的一致性，那么NML1、NML2、NML3之间有何不同？是否存在像脸网络那样的视点不变性？为了回答该问题，研究者在单个神经元和群体神经元上分析了不同物体不同视角的表征相似性，结果表明位于前端的NML3区域的神经编码是与视点无关的，即具有视点不变性。

接下来研究者继续探究Network X编码了何种视觉特性，对哪种视觉特性是最喜欢的。研究者利用简单猜测加验证的方法，计算了每个物体的长宽比，分析NML1、NML2、NML3的神经响应与物体长宽比之间的关系，发现二者存在显著正相关，证明这些区域的细胞确实偏好高长宽比的物体，Network X的神经元是被物体的长宽比调谐的。

除了猜测和验证的方法，是否有一种更加系统的方法来理解Network X的编码特性呢？研究者借助AlexNet这一深度神经网络建立了坐标系，包含第一维度（物体的长宽比）和第二维度（有无生命），从而能够用有限的维度描述任意物体，并且已经发现的Network X的偏好与AlexNet第一维度的偏好非常相似。

图1 微电刺激揭示下颞叶皮层中新的网络

图2 下颞叶皮层中四个不同网络对不同物体的偏好

图3 不同层级网络的神经元响应的视点不变性逐级递增

3.提出功能组织原则模型，
下颞叶皮层中的物体空间地图

如果下颞叶存在一个二维空间的拓扑结构（物体长宽比、有无生命），就很容易理解为什么Network X与AlexNet第一维度的偏好有很高的相似性。为了验证测试该模型是否正确，研究者将刺激集中Network X、脸网络、身体网络最偏好的图像投影到该二维空间中，发现以上图像分布在四个象限中的三个象限。由此提出预测：第四象限中应该偏好表征方形的、无生命的物体，该假设在脑功能成像实验中得到验证。由此归纳出下颞叶的功能组织结构：至少包含三种对物体空间的表征，这种表征由后到前越来越具有视点不变性，由四个网络来表征物体空间的四个象限，顺序为身体—脸—方形物体—Network X。四个网络中神经元编码的信息已经包含了足够的信息，具有充分的编码能力，可以借助GAN这一深度神经网络重构出物体。