酷应用

图神经网络作CV骨干模型，来听听华为诺亚是怎么做的

百家作者：机器之心 2022-06-27 16:28:00

在计算机视觉领域，骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet，卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来，基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比，基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。

直到现在，关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。传统的卷积网络将图像视作一个矩阵或网格，通过滑动窗口对邻域像素点或特征点进行聚合；视觉 Transformer 或 MLP 则是输入图片切分为若干个图像块，形成一个序列，用注意力机制或全连接层处理序列关系。网格或序列表示方法，对于图像来说显得不够灵活。比如一个人往往由头部、四肢和躯干构成，这些部位之间有一定连接关系，是一种非规则化的会变化的模式。

针对这些情况，华为诺亚方舟实验室联合中国科学院软件研究所、北大等机构的研究者在论文《Vision GNN: An Image is Worth Graph of Nodes》中，提出了一种新型视觉图神经网络（Vision GNN），它能够更灵活地对图像表征进行建模，在图像识别和目标检测等通用视觉任务取得了不错的效果。

机器之心最新一期线上分享邀请到了论文共同一作、华为诺亚方舟实验室研究员韩凯，为大家详细解读如何只用 GNN 来做视觉任务。

分享主题：Vision GNN: An Image is Worth Graph of Nodes

分享嘉宾：韩凯，华为诺亚方舟实验室研究员，主要研究方向为深度学习和计算机视觉。他在 NeurIPS/CVPR/TPAMI 等顶会顶刊发表 20 余篇论文，多项研究成果应用于华为产品线。他的谷歌学术引用 2000+，其中 GhostNet 和 TNT 入选 PaperDigest Most Influential Papers 榜单。

分享摘要：华为诺亚实验室的研究员联合高校发现图神经网络（GNN）也能做视觉骨干网络。将图像表示为图结构，通过简洁高效的适配，提出一种新型视觉网络架构 ViG，表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务，ViG 在相似计算量情况下 Top-1 正确率达 82.1%，高于 ResNet 和 Swin Transformer。

论文链接：https://arxiv.org/pdf/2206.00272.pdf