酷应用

华人包揽CVPR 2019最佳论文，李飞飞ImageNet成就经典

百家作者：机器之心 2019-06-19 01:22:08

机器之心报道

机器之心编辑部

刚刚，CVPR 2019 颁发了今年的所有奖项。来自 CMU 的辛书冕等人获得了最佳论文奖，而最佳学生论文奖被 UCSB 王鑫等人获得。李飞飞、李佳等人因 ImageNet 的贡献获得最具影响力论文奖。

作为计算机视觉领域内最负盛名的学术会议，今年的 CVPR 已于当地时间 6 月 16 日在美国加州长滩开幕。

与很多讨论 AI 技术的会议相同，CVPR 如同往届一样异常火热，吸引了大量来自学术界、产业界的研究员、开发者以及非技术人员的参与，以至于今年大会官方不得不「因注册人数太多」而提前截止了注册，并取消现场注册。

当然，这并没有难倒我们，机器之心的小编还是成功注册了这一盛会，为大家带来最及时、全面的报道。

大会主席之一朱松纯教授开场

据朱松纯教授介绍，今年大会共有 9227 人注册参会，突破历届记录，其中来自国内的参会人数达到 1044 位，仅次于大会举办地美国（4743 位）。

在论文方面，CVPR 作为计算机视觉领域的顶级学术会议，今年论文提交与接收数量也突破记录：来自全球 14,104 位作者提交了 5160 篇论文（这个数字比 CVPR 2018 增加 56%），最终接收了 1294 篇，接收率约为 25%。

照这个增长速度预计，在 CVPR 2028 年就会有 108 亿篇投稿了？

和去年一样，CVPR 2019 投稿论文作者中来自中国的最多，占 39%。

在介绍完数据情况之后，就进入了今天的重头戏：获奖论文。

最佳论文

今年的最佳论文由卡耐基梅隆大学、伦敦大学学院、多伦多大学获得，论文一作辛书冕是卡耐基梅隆大学机器人研究院的博士二年级学生，主要研究方向是计算机视觉和计算机图形学，师从 Srinivasa Narasimhan 和 Ioannis Gkioulekas 教授。

辛书冕本科就读于西安交大，毕业后赴美读书，并于 2016 年 12 月在 CMU 获得电子与计算机工程硕士学位。

最佳论文解决了什么问题？

据获奖词所言，这篇最佳论文对于非视距（non-line-of-sight/NLOS）重建作出了重大贡献，特别是为智能体赋予了看到角落的能力。

那么什么是非视距问题呢？就是我们不再假设摄像头能直接看到某些场景，很多光子会因为散射或反射等情况朝着与镜头相反的方向前进。

而这些光子又会因为不可见场景的反射，重新回到镜头前，它们会带有不可见场景的各种信息。

这些不可见场景返回的信息对于重建该场景非常重要。例如图 1 显示了一个硬币浮雕的微米级估计，该硬币可以从拐角处看到，也可以通过厚纸（漫射器）看到。

例如在 a 图中，本来红色的 detector 是观察不到隐藏的硬币的，它只能直接观察到可见的表面。但是有一些光子会因为漫射而观察到硬币，并反回 detector，从而能获取隐藏目标的信息。

图 1：非视距成像。研究人员考虑了一些重建物体表面的情况：a）处于传感器的视野之外；b）被漫射器遮挡。在 c）中，研究人员对比了他们的重建结果，和对物体进行深度扫描的真实结果。

值得一提的是，机器之心昨天发布的一篇论文也与非视距成像有关，但是那项研究使用的是声学系统，即利用声波「看到」墙角后面的物体。

与光学成像相比，该声学系统的硬件系统没有那么昂贵，但重建图像所用的时间较短，距离却比光学方法高出 2 倍。有兴趣的读者可以对比一下两篇论文。（参见：谁说偷窥一定要趴墙头？这个系统可用声波「看见」墙后物体）

论文：A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
论文链接：http://imaging.cs.cmu.edu/fermat_paths/assets/cvpr2019.pdf

摘要：研究者提出了一种新的光费马路径（Fermat path）理论，该光在已知的可见场景和不处于瞬态摄像机视线范围内的未知物体之间。这些光的路径要么从镜面反射，要么被物体的边界反射，因此编码了隐藏物体的形状。

研究者证明，费马路径对应于瞬态测量中的不连续性。然后他们推导出一个新的约束，该约束将这些不连续处路径长度的空间导数与曲面法线联系起来。

基于该理论，研究者提出了一个名为 Fermat Flow 的算法，来估计非视距物体的形状。该方法首次精确恢复复杂物体的形状，从漫反射到镜面反射，这些物体隐藏在角落里，也隐藏在漫射器后面。

最后，该方法与瞬态成像使用的特定技术无关。因此，研究者用 SPAD 和超快激光展示了从微微秒尺度瞬态实现毫米尺度的形状恢复，以及使用干涉法实现从飞秒尺度瞬态到微米尺度的重建。

最佳学生论文

今年的 CVPR 最佳学生论文是加州大学圣巴巴拉分校（UCSB）王威廉组（William Yang Wang）与微软研究院的合作文章《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》，第一作者王鑫。

本文是 CVPR 满分文章（3 个 Strong Accept），在 5160 篇投稿文章中审稿得分排名第一，在获奖之前被程序委员会和领域主席评审团确定为 CVPR 2019 口头报告论文。

在这一研究中，作者在视觉语言导航任务上提出了一种新的方法以探索未知的环境。值得一提的是，王威廉组主攻自然语言处理，这是一次跨方向研究的成功典范。

最佳学生论文讲了什么？

「向右转，到达厨房后再左转，转过桌子进入走廊……」使用新技术后的机器人可以根据这样的路线指令行事了，就像人类一样。

这篇论文主要解决的是视觉-语言导航（VLN）问题，即研究如何通过自然语言告诉智能体该怎么运动，智能体需要像问路者那样根据自然语言导航至目的地。

因为自然语言是完整路径的指导，而智能体只能观察到当前局部视野，因此重要的是智能体需要知道当前局部视觉对应着语言指导的哪一步。

为了解决视觉-语言导航中出现的各种问题，这篇论文提出结合强化学习（RL）和模仿学习（IL）的解决方案。

如下图 1 所示为 VLN 任务的示例，左侧的 Instruction 是用于指导智能体该怎么走的自然语言，除了接收指令外，智能体只能看到 Local visual 所示的局部图像视野。

因为智能体并不能获取全局轨迹的俯视图，所以它只能将自然语言指令「想象」成全局的视觉轨迹，然后再根据局部视野一点点探索并导航至目标。

图 1：VLN 任务演示。图中展示了指令、局部视觉场景和俯视图的全局轨迹，智能体并不能获取俯视图信息。路径 A 是遵照指令的演示路径，路径 B 和 C 是智能体执行的两个不同路径。

在这篇论文中，作者主要通过增强型跨模态匹配（RCM）和自监督模仿学习（SIL）处理 VLN 任务。

其中 RCM 会决定当前智能体应该关注自然语言中的哪一个子指令，以及局部视野哪个画面与之相对。

同时 RCM 还会评估已走的路径到底和自然语言指令相不相匹配。而 SIL 主要是探索未见过的环境，从而模仿过去的优良经验而走向目的地。

经典论文：PAMI Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」，表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年的 Longuet-Higgins 奖由 Jia Deng、Wei Dong、Richard Socher、李佳、Kai Li 和李飞飞于 2009 年发表在 CVPR 大会的论文《ImageNet: A Large-Scale Hierarchical Image Database》摘得。

如今，ImageNet 是每个人工智能从业者都耳熟能详的名词。这篇论文可以说开启了一个时代，它在 Google Scholar 上的引用量高达 11508 次。不过 ImageNet 论文在 CVPR 2009 被大会收录时还仅仅是一篇「普通」的 Poster 论文。这篇论文诞生的第二年，计算机视觉领域盛大赛事 ImageNet 挑战赛拉开序幕，ImageNet 成为计算机视觉识别领域的标杆，并促进该领域取得巨大突破。

此外，它还催生了深度学习的大发展。著名的卷积神经网络 AlexNet 在夺得了 2012 年 ImageNet LSVRC 冠军，且准确率远超第二名，引起了巨大轰动。之后，沉寂许久的神经网络重焕生机，取得了长足进步。

在颁奖仪式后，机器之心对李飞飞、李佳、邓嘉进行了简单的采访。谈到此次获奖，李飞飞认为，「做研究要做长远的有影响的，不要只看眼前的潮流，大家还是致力于做踏踏实实有影响力的研究。」

回顾过去 10 年 ImageNet 的发展，李佳表示，「09 年的时候，参加 CVPR 的人没有像现在这么多。我们挺想让更多人知道 ImageNet 的，我们还做了 ImageNet 的笔，到处去宣传去推广。邓嘉在这上面花了非常多的时间，最早的时候我们在想怎么用自动化的方法去网页上收集所有的图像，包括我在 07 年的时候有一篇论文叫《OPTIMOL: A Framework for Online Picture Collection via Incremental Model Learning》，我们以前假设用 OPTIMOL 算法就可以来构建包含整个 web 上面图像的数据库。飞飞也非常有远见，想和斯坦福的语言学家合作构建这样的 web size 图像数据库，最后算法还是被人类打败了哈哈。很多工作是通过 mechanical turk 平台做得。我们实验室的一位同事和我们讲，mechanical turk 是一个非常强大的工具，可以吸引很多人通过众包的方式来构建这个 web-based 知识图库。邓嘉一直专注于研究计算机视觉和机器学习和系统，最后才有 ImageNet。」

邓嘉告诉机器之心，「这个项目很说明一件事情，当时做 ImageNet 不是最主流的工作，但是我们所有做此项目的人都相信它会有很大的影响，所以我们就花了很大力气做这个事情。确实，它给我自己的一个启示是，你不一定要做最流行的事情，但要做自己相信会有影响的事情。」

李佳补充说，「当时主流思想不是这方面工作，当时大家主要做理论的、手动编码的机器学习，用数学的方法去解决通用难题。其实很多脏活苦活需要做，邓嘉的坚持我们都有目共睹。」

谈到这个历程中最大的困难，邓嘉说，「现在看来该怎么做很清楚，但当时想做一个数据集需要做很多决定——到底应该从什么来源收集数据？数据应该是什么样的？你需要什么标签？整个过程有很多决策需要做。现在看来，这些问题的答案都是很显然的，每一步你都是对的，但实际上不是这样，我们很多决定都是经过许多反复，最后才达成了我们想要的效果，这个中间其实有很多思考的。」

「当时我们经过了很多思考，我们无法预测你做了这个以后，社区会怎么利用它，具体会在什么问题上产生巨大影响……但是，这件事情在当时看来显然是必须要做的。」

「因为数据本身还是要解决某些问题，我们其实是在做一个问题，计算机视觉领域和其他一些领域之间的差别就是我们需要去解决根本问题。不管是建立数据库还是算法，最终都是为了解决问题。所以开始的时候我们有想要解决的问题，想要得到这个领域的认同则是之后的事情了。」李佳表示。

最佳论文荣誉提名

获得最佳论文荣誉提名的论文有两篇，分别是：

A Style-Based Generator Architecture for Generative Adversarial Networks
作者：Tero Karras、Samuli Laine、Timo Aila
论文链接：https://arxiv.org/abs/1812.04948

论文：Learning the Depths of Moving People by Watching Frozen People
作者：Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Ce Liu、Bill Freeman、Noah Snavely
论文链接：https://arxiv.org/abs/1904.11111

计算机先驱奖（Computer Pioneer Award）

计算机先驱奖于 1981 年由 IEEE 计算机协会设立，用于表彰至少在十五年以前对计算机领域发展做出突出贡献的个人。

今年获得计算机先驱奖的是 Jitendra Malik，是加州大学伯克利分校电气工程和计算机科学专业的一位教授。他同时也是生物工程专业的一位教授。