酷应用

南开大学提出最新边缘检测与图像分割算法，精度刷新记录（附开源地址）

百家作者：AI100 2018-10-31 18:12:33

参加 2018 AI开发者大会，请点击 ↑↑↑

作者 | 刘云、程明明、胡晓伟、边佳旺等

译者 | 刘畅

整理 | Jane

出品 | AI科技大本营

近日，南开大学媒体计算实验室提出的最新边缘检测和图像过分割（可用于生成超像素）被 IEEE PAMI 录用。研究的第一作者也发微博称：“这是第一个在最广泛使用的图像分割数据集 BSD500 上 F-Measure 评价值超越数据集本身人工标注平均值的实时算法。图像分割效果也刷新了精度记录。其算法也已经开源。”

先对各位作者进行简单的介绍：

一作刘云，目前在实验室内攻读博士学位，他的博导也是程明明老师。从刘博士发布过的论文成果列表中可以看到，他在 CVPR、ICCV、ECCV 上都有投过论文。

论文的第二作者——程明明老师。2012 年博士毕业于清华大学，之后在英国牛津从事计算机视觉研究，并于 2014 年回国任教，2016 年起任南开大学教授，国家“万人计划”青年拔尖人才，首批天津市杰出青年基金获得者。其主要研究方向包括：计算机图形学、计算机视觉、图像处理等。已在 IEEE PAMI, ACM TOG 等 CCF-A 类国际会议及期刊发表论文 30 余篇。

三作胡晓伟。四作边佳旺，目前就职于华为 media computing Lab。这四位作者都来自于南开大学媒体计算实验室。另外三位作者为 Le Zhang（南洋理工大学，ADSC）、Xiang Bai（华中科技大学，HUST）、唐金辉（南京理工大学，NUST）

下面 AI科技大本营就为大家分析讲解这个算法。先把相关介绍和开源地址分享给大家：

https://mmcheng.net/zh/rcfedge/

http://mftp.mmcheng.net/Papers/19PamiEdge.pdf

https://github.com/yun-liu/rcf

在计算机视觉领域，边缘检测属于一个经典问题。在近期的研究中，卷积神经网络（CNN）方法已经显著的推动该领域的发展。现有的方法，由于使用特定层数的卷积神经网络，可能无法成功提取复杂的数据模型，其中这些数据会随着图像尺度和纵横比进行变化。在本文中，我们提出了一种使用更丰富的卷积特征（Richer convolution features, RCF）的精准边缘检测方法。

RCF 方法将所有卷积特征封装成一种更具判别性的表达，这样就可以很好地利用丰富的特征层次结构，并且该方法也可以通过反向传播进行训练。RCF 方法充分利用目标的多尺度和多级信息来实现图像到图像（image-to-image）的预测。

程明明老师在他的微博中分享说：”这里面最核心的是 Richer feature：每个 stage 里面的所有 conv 层都是有用的，而不是传统只要每个 stage 的最后一个 conv 层。这是很通用的技巧，基本上干什么任务都用得着，而且改几行代码就能实现。“

（来源：程明明老师的个人微博）

使用 VGG16 网络，我们的方法在几个公共数据集上有最好的性能（state-of-the-art）。在BSDS500基准数据集上进行测试评估时，F-Measure 分数（F-measure）我们取得了 0.811 的成绩，并同时获得了8 FPS的速度。此外，快速版的 RCF 方法取得了 0.806 分和 30 FPS 的速度。为了证明所提出方法的多功能性，我们还将 RCF 检测的边缘应用于图像分割问题。

我们构建了一个基于 VGG16 的简单神经网络，以得到 conv3_1，conv3_2，conv3_3，conv4_1，conv4_2 和 conv4_3 这几层每层的输出。通过上图，可以清楚地看到卷积特征逐渐变得粗糙，并且中间层 conv3_1，conv3_2，conv4_1 和 conv4_2包含许多有用的精确细节，而这些细节没有在其他层中出现。

上图展示的是 RCF 网络架构。网络的输入是具有任意大小的图像，而网络的输出是具有相同大小的边缘检测图。我们将每个卷积层的层次特征组合成一个整体框架，而其中的所有参数都是可以训练学习的。由于 VGG16 中卷积层的感受野大小彼此不同，因此我们的网络可以学习多尺度，包括低尺度和对象级的信息，而这些信息将有助于边缘检测。