速成透视眼！利用光传播和阴影MIT新算法还原遮挡物，镜头无死角--粉丝服务平台-粉丝头条-fensifuwu.com

速成透视眼！利用光传播和阴影MIT新算法还原遮挡物，镜头无死角

科技 12-30 来源：大数据文摘

大数据文摘出品

来源：MIT

编译：王转转、刘俊寰

在希区柯克的经典悬疑电影《后窗》中，男主因腿部受伤坐卧修养，期间只能用望远镜观察邻居的生活打发无聊时间，由此卷入一场凶杀案。

电影中男主的“观看”被作为重要元素被反复强调，“观看”的内容则是被窗户框选出来的部分生活。

有没有一种透视法，能够看穿墙壁等遮挡物，再现遮挡物后的人物动作呢，就像…“火眼金睛”？

当然这可不是用来窥视别人生活的，透视法的开发可以带来很好的社会效益，比如，自动驾驶汽车可以更好地“看到”拐角处，养老中心可以提高居住的安全性，搜救队可以提高在危险或障碍区域的导航能力……

这一切需要交给计算机视觉（computer vision）模型来处理，现在的CV模型已经能完成一些看似不可能的任务了，比如帮助扑灭加利福尼亚的野火、了解复杂而险恶的道路，甚至可以用影子看到拐角处。

七年前，MIT研究人员就开发了一个成像系统，该系统能以地板、门和墙壁为“镜子”，“看到”人眼视线之外的场景信息。

系统利用了一种叫做飞秒激光（femtosecond laser）的装置，这种装置能发出非常短的光脉冲，持续时间以百万分之一秒为单位。工作时，系统向对面的墙壁发射激光，光线从墙上反射到室内，然后反弹重新出现，最终击中一个探测器。该装置可以每隔几皮秒，或万亿分之一秒进行测量，由此形成一个完整的物体信息。

可以说，这项工作为未来的计算机视觉发展开辟了无限的可能。

最近，MIT计算机科学与人工智能实验室（CSAIL）的科学家重启了这项工作。与之前不同的是，他们利用的是一种新方法，即通过细微的阴影和反射重现被遮挡的动作。也就是说，打开摄像机之后，即使是摄像机视野之外的物体或动作，也可以进行再现。

MIT的研究员们基于视域外的视频投射在附近物体上的阴影，预测出视域外的内容。上面一行显示的是研究员使用这种方法重现的视觉元素，下面一行则是原始物体。

通过观察阴影和几何图形之间的相互作用，新的算法可以预测光在场景中的传播方式，即“光传输”。然后，再利用这种传播方式从观察到的阴影中估计被隐藏的内容，甚至可以构建真人表演的大致轮廓。

杂物如何成为“观看”的镜子

该技术是“被动的”，这意味着对场景没有激光或其他干预，整个过程需要大约两个小时的处理时间。研究人员表示，该技术最终有助于重现视线之外的场景，包括但不限于上述应用。

“通过使用非视距成像设备（例如激光器）可以完成许多任务，但是在我们的方法中，只能使用自然到达相机的光线，并尝试充分利用这些稀缺的信息，”前CSAIL博士后和NVIDIA现任研究科学家，新技术的首席研究员Miika Aittala表示， “鉴于神经网络的最新进展，这似乎是一个很好的时机，可以解决在这个领域以前被认为是无法解决的一些挑战。”

为了捕获这些看不见的信息，团队使用了细微的间接照明提示，例如被观察区域杂乱的阴影和高光。在某种程度上，一堆杂物的行为有点像针孔照相机，类似于在小学科学课中可能会制作的东西：它阻挡了一些光线，但允许其他光线通过，并且无论在何处，它们都描绘出周围环境的图像。

但如果针孔相机被设计为仅允许通过足以形成可读图像的光线，那么一堆杂乱的杂物会产生无法识别的的图像、（通过光传输）被扰乱的阴影的复杂运动。

可以将杂物想像成一面镜子，使我们可以看到周围的环境，尤其是在无法直接看到的角落。这个算法所解决的挑战是要弄清并理解这些照明的提示。

具体而言，目标是通过光传输和隐藏视频，将隐藏场景中活动恢复为人类可观看的内容。但是，解密却被证明是一个经典的“先有鸡还是先有蛋”的问题。为了理解加扰模式，用户将需要知道隐藏的视频，反之，为了知道隐藏的视频，用户将需要理解加扰模式。

“从数学上来说，就像我告诉你我正在考虑两个秘密数字，它们的乘积是80。你能猜出它们是什么吗？也许40和2？还是371.8和0.2152？对于我们的问题，我们在每个像素上都面临类似的情况，” Aittala说，“几乎所有隐藏的视频都可以通过相应的加扰来解释，反之亦然。如果我们让计算机进行选择，它只会为我们提供一大堆看起来什么都不像的随机图像。”

考虑到这一点，团队致力于通过算法上指定一种与现实中的阴影相对应的“加扰”模式来消除歧义，以重现隐藏的视频，看起来它具有边缘，以及移动时具备一致的对象。

新的算法有助于消除歧义

该团队还利用了一个令人惊讶的事实，即使从未受过训练的神经网络自然也喜欢表达“类似图像”的内容，这有助于消除歧义。

算法使用了机器学习中“深层图像优先级”的概念，同时训练两个神经网络，这两个神经网络仅专用于一个目标视频。一个网络产生加扰模式，另一个网络估计隐藏的视频。当这两个因素再现了从混乱中录制的视频时，网络就会得到“奖励”，驱使它们用合理的隐藏数据来解释观察结果。

为了测试该系统，团队首先将物体堆放在一堵墙上，然后放映视频或在对面的墙上移动自己的物理位置。由此，他们可以重现视频，使您可以大致了解房间隐藏区域中正在发生的运动。

将来，该小组希望提高系统的整体分辨率，并最终在不受控制的环境中测试该技术。