酷应用

上交大倪冰冰教授：对视频的智能理解是AI最大的战场

百家作者：DeepTech深科技 2018-10-30 10:33:10

10 月 27 日，由《麻省理工科技评论》、DeepTech 深科技联合主办，梅赛德斯-奔驰特别呈现的“全球科技青年论坛”在北京举行。论坛集结了海内外 30 余名顶尖科学家、企业家与研究者，为现场超过 600 名关注新兴科技、热爱科学事业的参会者开启了接触前沿领域专家的机会。

在“实现未来价值”板块，上海交通大学教授、小视科技联合创始人倪冰冰做了题为“智能视频分析与未来媒体”的演讲，分享了小视科技在计算机视觉、图像、视频的理解和生成做的一些尝试。

（来源：DT 君）

以下为倪冰冰演讲的主要内容（经基于原意的删改）：

大家好，我是倪冰冰，今天要给各位分享的主题是“智能视频分析与未来媒体”。

小视科技是比较年轻的一个团队，我们是做什么的？一句话，我们是利用人工智能两大最核心的技术：计算机视觉和大数据技术，为相关行业提供 AI 整体的解决方案。目前我们已经发展四个业务板块：金融、安防、零售以及媒体。

我个人的研究领域是计算机视觉里的智能视频分析，现在我们讲，对视频的智能理解是人工智能里最大的战场，是体量最大的人工智能，我想应该不会有多少人有反对的意见。

其实道理很简单，比方对我们人类来说，我们每天接触到的信息听说读写里有 70% 实际是视觉信息。在信息领域，大多数的信息也是视频图片的数据。这些在安防监控、辅助驾驶、智能驾驶、无人驾驶，以及在社交媒体短视频、直播里，是最核心的技术。这其中也有很多问题，比如人脸识别、行为识别、物体检测、媒体制作以及视频推荐等。

同时，智能视频理解技术上的挑战非常大。我们看几个例子，比如对安防这个领域来说，安防摄像头的视频质量有时候比较差，人动一下会有些模糊。另外，同样一个动作，比如打拳，不同的人做同样一个动作的样式是非常不同的，有人快有人慢。并且由于照相机所架设的高低远近，它的尺寸是不同的。所以，要把大的东西、小的东西同时抓出来是很有难度的。

最后一个问题，视频的体量非常大，每秒钟全世界上传到 Youtube 的视频要达到几千个小时，这样大视频的体量，用我们现在流行的神经网络、深度学习的技术做，就算我们有英伟达的卡，也要很长的计算时间。如何降低计算量，使得我们有更多的时间计算更多视频的数据，也是一个很大的挑战。

我们团队对这些问题做了很长时间的研究，给大家分享几个代表性的工作。

（来源：DT 君）

首先是行为识别。行为识别无非是给你一段视频，你告诉观众里面的人在做什么，里面发生了什么。我们在这做了一些创新，比如针对时序的问题，我们提出了时序金字塔算法。这个算法是对时间轴进行分尺度建模，使不同尺度的特征都能很好的表达。我们又配合流行的深度学习里的 LSTM 深度递归网络，使得不同尺度的信息在不同时间进行流动，最后达到很好的识别效果。

我们这个技术也参加了 2015 年由 Google、斯坦福等著名机构所主办的国际行为识别检测比赛，我们很有幸取得了国际上的最好成绩。

还有一个非常重要的问题——行人重识别，说白一点就是找人。如果我们能把人在不同摄像头下追踪起来的话，就可以得到这个人在整个时间轴和空间轴上的分布，可以做很多的应用。

原来我们在做视频行为里的行人重识别的时候，通常是利用单帧的信息，比方这个时间点上选一帧图像去跟旁边的那帧图像进行比对。我们发现单帧图像的信息是丢失的，我所拍摄的是人整个动的过程，取得单帧的话，整个动的行为就损失掉了。另外，单帧的时候，很有可能会遇到比如一些特殊姿势、一些遮挡和运动的模糊等问题。

所以我们提出一个方法，使得我们能够对整个视频进行时序上的个人信息汇总，形成定量的表征，从而使行人重识别的性能达到最优。

还有视频的大体量问题。我们现在用深度学习的网络进行智能分析，它的参数量非常多，甚至超过几十、几百兆。这样大的网络去做视频分析，显然使用时间是非常久的。但我们又要求在新一代的人工智能里，希望很多智能的工作在端上进行，比方手机、iPad 等。这样大的模型显然无法在这样一个小的运算设备上进行运算。

我们针对这个问题做了简化，使得我们过去用浮点数来表达的网络，现在用二进制的数据网络表达，使得计算变得非常的高效。

有了这个技术以后，实际上很多原来一定要在云上，一定要在服务端去做的一些人脸识别的功能，现在可以在很小的手机上做。

（来源：DT 君）

刚才说的是算法，实际对一个公司团队来说，算法到落地还有很长的路要走，这里面相当多的功夫用在了工程化的落地上。

我们对一些人和物检测的算法也做了很多工程化的努力。比如我们现在对人的定位有轻量级的人脸检测模块，这样一个几兆的小的模块可以在手机里运行；我们也有轻量级的人体骨骼检测模块；我们定位了人以后要进行识别，现在在小设备上，人脸识别也能做到在百万底库下 95% 以上的通过率，这是非常难的一个过程。

这里还要说一点，我们也有基于多角度摄像机的 3D 定位跟踪模块，这是现在在业界还比较新的技术。过去我们是用单个相机对人在 2D 的场景进行定位。现在我们能在相机和相机之间形成匹配，用重识别以及跟踪的技术在 3D 的空间里对人进行追踪，对人的动态过程进行互画像。

这些技术产生了很多的应用，比如新零售、智能零售系统就是一个很好的例子。新零售里无非是有多少人进入我的商店、多少男生多少女生、什么年龄段、他们在哪个商品面前停留了多少时间，这些通过我们的技术都可以解决。

抓到这些数据以后，可以反映在我们大数据端，有了客流分析、轨迹、略读图的数据，店家能够对行销展开布局，对行销策略做一定的改变和优化。我们在各种场景里实际也已经有了很多合作伙伴。

上面说的是我们在计算机视觉、图像、视频的理解领域做的一些尝试。跟理解相对应的逆过程，是生成，图像的生成、视频的生成。

什么叫视频生成？原来的视频是要一个摄制组去拍，现在它可以无中生有的产生。

当然视频生成这个问题是非常难的，主要的问题是视频是 3 个维度的数据。我们针对视频生成这个解特别难的问题做了一些尝试，比方我们对这个解的空间可以进行约束，于是我们可以搜索的空间就小了，生成的东西越来越逼真。我们也可以对这个解进行分级处理，可以先解决一些简单问题，再解决一些简单问题，使整个复杂的问题简化。

（来源：DT 君）

最终我们可以实现自动生成视频，我们现在也能生成比较长时间的图像，目前在国际上视频生成领域，我们达到了比较好的精度。同时，我们能生成一些交互的动作。交互是一个更难的问题，因为交互里不仅是表现的生成，而且是他互动的动作，要具有一定的合理性。比如我打一拳，他是要有一个避让的动作的。

我们在跨模态的媒体生成上也做了一些工作，所谓跨模态就是我能不能看图写一个诗，看诗可以生成一个图像或者视频。这个问题里最大的核心在于，不同媒体的语义空间是不一样的。这里面我们也提了一个技术，叫共同子空间的匹配，使得不同的媒体能在一个共同的子空间里进行有效的匹配。

最后我们有一些有意思的结果，比如我们实现了全世界第一例通过让计算机算法自动看 NBA 视频产生自动专业化的解说，我们也可以通过图像自动产生一些背景音乐。这两个模态之间的转化都是非常有意思的应用。我们认为基于这些内容产生的算法，未来新媒体的时代一定会到来，在新媒体里，所有的内容都是计算机产生或者计算机辅助人产生的。

最后提一点，识别和生成，这两个实际是一个问题的两个方面，有了很好识别的算法、方法，也能做很好的生成，有了生成的算法，也能辅助到识别。

未来我们相信识别和生成这两个任务肯定是像周伯通的左右互搏一样，互相促进，最后能达到非常高深的功力。

-End-