速成透视眼!只利用光传播和阴影,MIT新算法能还原遮挡物,镜头真·无死角

百家 作者:大数据文摘 2019-12-28 04:51:34

大数据文摘出品

来源:MIT

编译:王转转、刘俊寰


在希区柯克的经典悬疑电影《后窗》中,男主因腿部受伤坐卧修养,期间只能用望远镜观察邻居的生活打发无聊时间,由此卷入一场凶杀案。


电影中男主的“观看”被作为重要元素被反复强调,“观看”的内容则是被窗户框选出来的部分生活。



有没有一种透视法,能够看穿墙壁等遮挡物,再现遮挡物后的人物动作呢,就像…“火眼金睛”?

当然这可不是用来窥视别人生活的,透视法的开发可以带来很好的社会效益,比如,自动驾驶汽车可以更好地“看到”拐角处,养老中心可以提高居住的安全性,搜救队可以提高在危险或障碍区域的导航能力……

这一切需要交给计算机视觉(computer vision)模型来处理,现在的CV模型已经能完成一些看似不可能的任务了,比如帮助扑灭加利福尼亚的野火、了解复杂而险恶的道路,甚至可以用影子看到拐角处

七年前,MIT研究人员就开发了一个成像系统,该系统能以地板、门和墙壁为“镜子”,“看到”人眼视线之外的场景信息。

系统利用了一种叫做飞秒激光(femtosecond laser)的装置,这种装置能发出非常短的光脉冲,持续时间以百万分之一秒为单位。工作时,系统向对面的墙壁发射激光,光线从墙上反射到室内,然后反弹重新出现,最终击中一个探测器。该装置可以每隔几皮秒,或万亿分之一秒进行测量,由此形成一个完整的物体信息。


可以说,这项工作为未来的计算机视觉发展开辟了无限的可能。


最近,MIT计算机科学与人工智能实验室(CSAIL)的科学家重启了这项工作。与之前不同的是,他们利用的是一种新方法,即通过细微的阴影和反射重现被遮挡的动作。也就是说,打开摄像机之后,即使是摄像机视野之外的物体或动作,也可以进行再现。


MIT的研究员们基于视域外的视频投射在附近物体上的阴影,预测出视域外的内容。上面一行显示的是研究员使用这种方法重现的视觉元素,下面一行则是原始物体。


通过观察阴影和几何图形之间的相互作用,新的算法可以预测光在场景中的传播方式,即“光传输”。然后,再利用这种传播方式从观察到的阴影中估计被隐藏的内容,甚至可以构建真人表演的大致轮廓。


杂物如何成为“观看”的镜子


该技术是“被动的”,这意味着对场景没有激光或其他干预,整个过程需要大约两个小时的处理时间。研究人员表示,该技术最终有助于重现视线之外的场景,包括但不限于上述应用。


“通过使用非视距成像设备(例如激光器)可以完成许多任务,但是在我们的方法中,只能使用自然到达相机的光线,并尝试充分利用这些稀缺的信息,”前CSAIL博士后和NVIDIA现任研究科学家,新技术的首席研究员Miika Aittala表示, “鉴于神经网络的最新进展,这似乎是一个很好的时机,可以解决在这个领域以前被认为是无法解决的一些挑战。”


为了捕获这些看不见的信息,团队使用了细微的间接照明提示,例如被观察区域杂乱的阴影和高光。在某种程度上,一堆杂物的行为有点像针孔照相机,类似于在小学科学课中可能会制作的东西:它阻挡了一些光线,但允许其他光线通过,并且无论在何处,它们都描绘出周围环境的图像。


但如果针孔相机被设计为仅允许通过足以形成可读图像的光线,那么一堆杂乱的杂物会产生无法识别的的图像、(通过光传输)被扰乱的阴影的复杂运动。



可以将杂物想像成一面镜子,使我们可以看到周围的环境,尤其是在无法直接看到的角落。这个算法所解决的挑战是要弄清并理解这些照明的提示。


具体而言,目标是通过光传输和隐藏视频,将隐藏场景中活动恢复为人类可观看的内容。但是,解密却被证明是一个经典的“先有鸡还是先有蛋”的问题。为了理解加扰模式,用户将需要知道隐藏的视频,反之,为了知道隐藏的视频,用户将需要理解加扰模式。


“从数学上来说,就像我告诉你我正在考虑两个秘密数字,它们的乘积是80。你能猜出它们是什么吗?也许40和2?还是371.8和0.2152?对于我们的问题,我们在每个像素上都面临类似的情况,” Aittala说,“几乎所有隐藏的视频都可以通过相应的加扰来解释,反之亦然。如果我们让计算机进行选择,它只会为我们提供一大堆看起来什么都不像的随机图像。”


考虑到这一点,团队致力于通过算法上指定一种与现实中的阴影相对应的“加扰”模式来消除歧义,以重现隐藏的视频,看起来它具有边缘,以及移动时具备一致的对象。


新的算法有助于消除歧义


该团队还利用了一个令人惊讶的事实,即使从未受过训练的神经网络自然也喜欢表达“类似图像”的内容,这有助于消除歧义。


算法使用了机器学习中“深层图像优先级”的概念,同时训练两个神经网络,这两个神经网络仅专用于一个目标视频。一个网络产生加扰模式,另一个网络估计隐藏的视频。当这两个因素再现了从混乱中录制的视频时,网络就会得到“奖励”,驱使它们用合理的隐藏数据来解释观察结果。


为了测试该系统,团队首先将物体堆放在一堵墙上,然后放映视频或在对面的墙上移动自己的物理位置。由此,他们可以重现视频,使您可以大致了解房间隐藏区域中正在发生的运动。


将来,该小组希望提高系统的整体分辨率,并最终在不受控制的环境中测试该技术。


相关报道:

https://news.mit.edu/2019/using-computers-view-unseen-computational-mirrors-mit-csail-1206




实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍
后台回复志愿者”加入我们

点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接