酷应用

业界 | 技术解读：腾讯优图12篇论文入选 ICCV 2017

百家作者：机器之心 2017-10-19 02:43:58

机器之心发布

来源：腾讯优图实验室

被誉为计算机视觉领域三大顶级会议之一的 ICCV（另外两个为 CVPR、ECCV）不久之前揭晓了收录论文名单，腾讯优图共有 12 篇论文入选，居业界实验室前列，其中 3 篇被选做口头报告（Oral），该类论文仅占总投稿数的 2.1%（45/2143）。

本届 ICCV 共收到 2143 篇论文投稿，其中 621 篇被选为大会论文，录用比例 29%。其中有 45 篇口头报告（Oral）和 56 篇亮点报告（Spotlight）。今年参会人数预计将超过 3000 人。

ICCV 作为计算机视觉领域最高级别的会议之一，其论文集代表了计算机视觉领域最新的发展方向和水平。此次腾讯优图入选的论文提出了诸多亮点：全球首个 AI 卸妆效果的算法；现今最准确的单张图像深度估计算法；完美解决多帧信息融合困难的多帧超分辨率视频结果；史无前例的手机双摄图像匹配和分割研究成果。这些论文呈现了有趣且可扩展应用的技术，让视觉 AI 成为了一个工业界和学术界的交叉热点。其中，腾讯优图的智能卸妆超分辨率、双摄融合、滤镜还原和智能图像缩放都是具有极大应用前景的技术。它们创造出新应用的同时也改进了现有算法，为后续的研究提供了更多的经验和指导。

下文对腾讯优图 12 篇入选论文进行解析：

1. Oral 论文：美化人像的盲复原

Makeup-Go: Blind Reversion of Portrait Edit
http://open.youtu.qq.com/research/publications

本文与香港中文大学合作完成。目前市面上有很多关于人脸美化的应用，如腾讯天天 P 图等。由于这些应用的流行，网络上的人像很多与真人不符。本文提出一种图像盲复原的算法，用于将美化过的人像复原为真实的人像。为了简化问题，本文着重阐述如何解决全局美化操作的复原问题，例如肤色美白，去皱，磨皮等。由于这些操作是在图像的不同尺度上完成的，而我们又无法得到人脸美化应用中所使用的操作类型和参数，直接使用现有的模型并无法解决这个问题。我们提出了一种新的深度网络结构，成分回归网络，来对美化图像进行盲复原。即使在不知道美化系统具体参数的情况下，该网络结构亦能更好地将美化后的图像映射为原始图像。实验表明，该网络在不同尺度上均可以得到较高的还原度。

本文入选 ICCV 2017 口头报告（Oral），该类论文仅占总投稿数的 2.1%。

2. Oral 论文：细节还原深度视频超分辨率

Detail-revealing Deep Video Super-resolution
http://open.youtu.qq.com/research/publications

本论文与香港中文大学、多伦多大学和 Adobe 合作完成。本论文关注解决视频超分辨率的问题，即利用视频中低分辨率的多帧信息，恢复出清晰而真实的高分辨率图像。传统的超分辨率算法处理速度慢，恢复效果严重依赖于繁琐的参数调整，因此难以实用。近期的基于深度学习的算法则由于运动估计不够准确，难以恢复足够丰富的真实细节。

本文作者从原理和实验上发现并指出：正确的运动估计对于图像细节恢复至关重要，并基于此设计了亚像素运动补偿网络层 SPMC Layer。本文提出的适用于视频超分辨率的网络结构能够实现：单模型处理任意尺寸输入，任意倍率放大，任意多帧处理。同时，本文算法能够在取得丰富的真实细节情况下，达到很快的处理速度（百倍于同等效果的传统方法）。本文算法在效果、速度和实用性上均能超过现有其他算法。

本文入选 ICCV 2017 口头报告（Oral），该类论文仅占总投稿数的 2.1%。

3. Oral 论文：基于图的 RGBD 图像分割网络

3D Graph Neural Networks for RGBD Semantic Segmentation
http://open.youtu.qq.com/research/publications

本论文与香港中文大学、多伦多大学合作完成。本论文专注解决 RGBD 图像的语义分割问题。与比较常见的 RGB 图像分割问题相比，这个问题又有了深度的信息。深度信息能够表征物体的几何形状，并且能够更精确的描述像素件的几何链接。因此如何利用深度信息做到更精确的图像分割成为这个问题最核心的模块。在此之前的方法都是先将深度图编码成 HHA 图像，然后再把 HHA 图当作另外一张图像并输入到神经网络里抽取特征。这种方法在本质上还是一个基于 2D 的解决思路，无法更好的融合点之间在真实空间的联系，并不能使得到的结果很好的利用深度信息。本文作者提出在把深度信息转化为点真实的三维坐标，然后建立基于点实际坐标的 knn 图。并且利用基于图的神经网络，能够让图像特征可以根据 knn 图相互迭代更新每个点的特征。最后再利用分类网络对更新过的特征进行分类完成图像 RGBD 图像分割的问题。本文算法在效果上超过现在的基于 2d 卷积的方法，体现了该方法利用几何信息完成特征迭代更新的有效性。

本文入选 ICCV 2017 口头报告（Oral），该类论文仅占总投稿数的 2.1%。

4. Poster 论文：高质量的手机双摄图像匹配和分割估计

High-Quality Correspondence and Segmentation Estimation for Dual-Lens Smart-Phone Portraits
http://open.youtu.qq.com/research/publications

本文提出了一个高质量的手机双摄图像匹配以及分割的算法。同时解决了图像匹配和物体分割这两大计算机视觉里的难题。随着双摄逐渐成为手机的标配，怎样更好的匹配双摄图像一直以来都是学术界和工业界关心的问题。为了解决这一难题，作者提出了一种联合优化匹配和分割的框架，为了让优化高效，还提出了一种区域的匹配算法。作者建立了一个 2000 对双摄图像的数据集用于算法的评估和测试。

5. Poster 论文：立体匹配的无监督机器学习

Unsupervised Learning of Stereo Matching
http://open.youtu.qq.com/research/publications

本论文与香港中文大学合作完成，主要提出了全新的立体匹配（Stereo Matching）的无监督学习（Unsupervised Learning）框架。深度神经网络在立体匹配问题中被广泛应用，与传统方法相比较下，精度和效率都有显著的提高。然而现有的方法大多基于有监督学习（Supervised Learning），另外少有的一些通过无监督学习得到的模型的精度也不甚理想。

在这篇论文中，作者提出了一种简单又高效的对立体匹配问题的无监督学习方法。通过左右一致性检测，此方法在每一次迭代中都会筛选出正确的匹配。这些正确的匹配会被用作下一次迭代的训练数据。经过数次迭代，此方法收敛到稳定状态。实验结果证明了此方法的精度远优于现有的无监督方法，且十分接近有监督方法。

6. Poster 论文：基于零阶优化的图像滤镜还原

Zero-order Reverse Filtering
http://open.youtu.qq.com/research/publications

本论文与香港中文大学、多伦多大学和 Adobe 合作完成。在图像处理领域，研究者们设计了种类的繁多的滤镜用来消除噪声，去除纹理等。本文另辟蹊径，首次提出并探讨了滤镜问题的一个新方向：能否恢复经过图像滤镜处理之后的图片？

通过对图像滤镜过程的分析，本文作者发现传统平滑滤镜可以近似看做测度理论中的压缩映射。因此，在无需知道滤镜实现算法的情况下，用简单地零阶迭代算法便可以恢复滤镜前的效果。作者在常用的数十种滤镜上测试了算法，并均能取得很好的效果。本算法本身实现简单（无需知道滤镜算法，无需计算梯度），效果显著，其揭示的现象和背后的原理有望引起后续研究者们对滤镜算法领域新的理解。

7. Poster 论文：基于图模型神经网络的情景识别

Situation Recognition with Graph Neural Networks
http://open.youtu.qq.com/research/publications

本论文与香港中文大学和多伦多大学合作完成，作者提出了一种基于图模型的神经网络用于情景识别任务。在情景识别任务中，算法需要同时识别图中所展示的动作以及参与完成这个动作的各种角色，比如主语、宾语、目标、工具等等。为了显式地对不同角色间的关系建模，文中提出的图模型神经网络将表示不同角色的节点连接在了一起，并通过信息传递的方式使得网络可以输出一个结构化的结果。作者在实验中比较了不同的连接方式，比如线形结构，树形结构和全连接结构，发现在情景识别任务中全连接结构的效果最好。最后，文中还展示网络所学习到的对于不同动作的特有的连接结构。上图所示的结果图，比较了不同模型的检测结果。其中蓝底的表示参与动作的角色，绿底表示正确的预测结果，红底表示错误的预测结果。我们可以看到，使用全连接图模型能够纠正一些由其他模型产生的错误。

8.Poster 论文：基于序列性组合深度网络的实例分割

Sequential Grouping Networks (SGN) for Instance Segmentation
http://open.youtu.qq.com/research/publications

本论文与香港中文大学，多伦多大学和 Uber 合作完成。实例分割是比物体检测和语义分割更进一步的识别任务，旨在为图中每个实例都提供一个像素级别的掩膜，既保持了区分不同实例的能力，又保证了定位实例的精确性。该任务在自动驾驶，机器人等领域有广阔的应用前景。

在本论文中，作者提出了一种全新的方式，通过一组序列性的不同的深度网络逐步将一些低级的元素不断组合成更加复杂的结构，最终得到每个实例对应的掩膜。该方法同时解决了一些早期工作中自下而上的方法会把被隔断的物体错判为多个物体的问题。该方法在两个数据集上都取得了比早期工作更好的结果。

9.Spotlight 论文：基于弱监督和自监督的深度卷积神经网络图片缩放算法

Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting
http://open.youtu.qq.com/research/publications

本论文与韩国 KAIST 大学一起合作。随着数字显示设备的普及，随之而来的一个问题就是同一张图片在不同分辨率设备上显示效果的适应性问题。传统的线性缩放，或是简单裁剪等方法会带来诸如图片内容扭曲、内容丢失等负面效果。

作者提出了一种利用弱监督和自监督深度卷积神经网络（WSSDCNN）来进行图片缩放的算法。该算法通过建立一个在输入图片与目标分辨率图片之间像素级别的映射，旨在对图片大小进行调整的同时，尽量保留图片中重要语义信息的比例结构，从而避免了内容扭曲、内容丢失等传统方法的缺陷，在最大程度上保持了图片显示效果的一致性。

10. Poster 论文：分区域多人姿态识别算法

RMPE: Regional Multi-Person Pose Estimation
http://open.youtu.qq.com/research/publications

本论文与上海交通大学合作完成。自然场景下的多人姿态识别一直都是计算机视觉领域中较难攻克的课题之一。尽管目前人物检测的算法已经十分稳定，但微小的误差仍然很难避免。

针对在人物检测结果不准的情况下进行稳定的多人姿态识别这一问题，作者提出了一种全新的解决方案——分区域多人姿态识别算法（RMPE）。该算法综合利用了对称性空间迁移网络（Symmetric Spatial Transformer Network）和单人姿态估计算法，从而摆脱了多人姿态识别任务对人物检测准确性的依赖，并且进一步通过参数化的人物姿态表达对识别结果进行了优化。根据在公开数据集 MPII 上的测试结果，该算法相较 CMU 提出的 OpenPose 算法提升了 1 个百分点，尤其是对手肘、手腕、膝盖、脚踝等细小关键点的改善尤为明显。

11. Poster 论文：学习判别判别数据拟合函数来做图像的去模糊

Learning Discriminative Data Fitting Functions for Blind Image Deblurring
http://open.youtu.qq.com/research/publications

本论文与南京科学技术大学，大连理工大学和加州大学默塞德分校合作完成。本论文是关于一个用数据拟合函数来解决图像的去模糊问题。图像去模糊是一个经典的计算机视觉问题，需要合理定义数据拟合函数和图像先验知识。但是目前的大部分算法都是通过更好的定义图像先验来提高去模糊的效果，对数据拟合函数的研究比较少。本文提出了一种机器学习方法来学习模糊图像和清晰图像之间的关系，从而得到更好的数据拟合函数。该拟合函数能进一步帮助估计更加准确的模糊核。该算法在非常难的去模糊图像数据集中得到了最好结果。

12. Poster 论文：利用已知物体和物质信息迁移的弱监督物体检测算法

Weakly Supervised Object Localization Using Things and Stuff Transfer
http://open.youtu.qq.com/research/publications

本论文与爱丁堡大学合作完成。本论文关注弱监督的物体检测问题并利用已知物体（可数）和物质（不可数）信息迁移来提供帮助。弱监督物体检测的目标集合的中物体位置信息未知，而源集合中对应的物体和物质的信息包括位置、标记等则已知。源集合和目标集合中的物体类别有一定的相似性，比如外形相似或者拥有共同物质背景。 为了迁移利用这种相似性，本文作者从源集合中获取三种信息：一个分割模型；源集合与目标集合物体类别之间相似度；源集合中物体与物质类别之间的共生性。作者紧接着利用分割模型对目标集合图片首先做图像分割，同时利用物体物质类别之间的相似度和共生性来修正分割结果。修正后结果被嵌入到多物体检测框架中联合训练并检测目标集合中的物体。本文算法效果在公开数据集上超过其他现有弱监督物体检测算法。同时本文特别选择了目标集和源集合差别很大的物体类别进行测试，显示本文迁移算法具有很强大的泛化能力。

ICCV 简介

ICCV 全称为 International Conference on Computer Vision（国际计算机视觉大会），由美国电气和电子工程师学会（IEEE，Institute of Electrical & Electronic Engineers）主办。作为世界顶级的学术会议，首届国际计算机视觉大会于 1987 年在伦敦揭幕，其后两年举办一届。今年 ICCV 将于 10 月 22 日到 29 日在意大利威尼斯举办。

ICCV 作为计算机视觉领域最高级别的会议之一，是中国计算机学会推荐的 A 类会议。其论文集代表了计算机视觉领域最新的发展方向和水平。会议的论文收录率较低，影响力远超一般 SCI 期刊，大致与中科院 JCR 分区 1 区和 Web of Science 的 JCR 分区 Q1 中靠前的学术期刊相当。