酷应用

“半真半假”DeepFake换脸也能精准识别？阿里安全提出全新检测方法

百家作者：AI100 2020-08-26 21:28:27

一段包含多个人脸的视频中，攻击者只对一个或者几个人的人脸进行伪造，这种“半真半假”的伪造情况能否被检测识别？近日，阿里安全图灵实验室宣布，其已成功打造出针对这种换脸视频的DeepFake检测技术，阐述该技术的论文被国际学术顶会ACM MM2020收录。

DeepFake检测技术具有许多现实应用场景的价值，比如攻击者将不雅视频主角人脸换成目标人脸进行传播等场景时，DeepFake检测技术可“鉴伪求真”，追溯真相。

以前的研究中，DeepFake视频检测主要专注于在强监督标注提供时，如何较好地检测到DeepFake图像或者人脸。不同于之前的工作，阿里安全更加关注于一个现实中广泛存在的问题：部分攻击(篡改)的视频，即视频中只有部分人脸被篡改了。如下图所示，左图显示的是完全DeepFake攻击，其原图里仅有一张人脸，被被替换。而右图中有多张人脸，却只有红框是被替换过的。

完全DeepFake攻击（左图）和部分DeepFake攻击（右图）

目前存在的DeepFake检测工作主要分为两类：帧级检测和视频级别检测。基于帧级的方法不仅需要成本高的帧级别的标注，在转化到视频级任务时，也需要设计巧妙的融合方法才能较好地将帧级预测转化为视频级预测。简单的平均值或者取最大值极易导致漏检或误检。而之前基于视频级别的检测工作，比如LSTM等，在DeepFake视频检测时，过多专注于时序建模，导致DeepFake视频的检测效果受到了一定的限制。

阿里安全图灵实验室算法工程师向溪介绍，为更好地检测部分篡改的DeepFake视频，阿里安全图灵实验室提出了一种全新的检测方法，这种方法标注简单，并能帮助神经网络更好地学习人脸特征，实现更好的检测效果。

阿里安全图灵实验室还发现了攻击者篡改视频时露出的马脚，由于攻击者对视频实行单帧篡改，导致同一人脸在相邻帧上会有一些抖动，因此研究人员设计了新检测模块来发现这些抖动，辅助识别。

此外，此前业界提出的检测方法多适用于针对单人视频脸部篡改或多人视频所有人脸篡改，阿里安全构建了一个部分攻击数据集，弥补了DeepFake检测数据集在多人脸视频中只对一个人脸或者几个人脸篡改场景里的空白。

S-MIL算法

图2 S-MIL算法框架图

为了更好地检测部分篡改的DeepFake视频，我们提出了一种新的只需要视频级别标注的DeepFake视频检测方法。由于在视频检测任务中，人脸或帧级标注是缺失的，如果像基于帧级检测的方法，直接将视频标签当作每张人脸的标签，会引入训练噪声，导致训练很可能无法收敛。回顾DeepFake视频的定义：只要视频中有一张人脸被篡改，那么该视频就被定义为DeepFake视频。

这个是和多实例学习相吻合的。在多实例学习中，一个包由多个实例组成，只要其中有一个实例是正类，那么该包就是正类的，否则就是负类。基于这个观察，我们提出了基于多实例学习的DeepFake检测框架，将人脸和输入视频分别当作多实例学习（Multiple Instance Learning, MIL）里的实例和包进行检测。

但是传统的多实例学习存在梯度消失问题，为此，我们提出了Sharp-MIL(S-MIL)，通过将多个实例的聚合由输出层提前到特征层，一方面使得聚合更加灵活，另一方面也利用了伪造检测的目标函数直接指导实例级深度表征的学习，来缓解传统多实例学习面临的梯度消失难题。我们也通过理论证明了S-MIL可以缓解传统MIL存在的梯度消失问题。传统MIL定义：

DeepFake篡改在时序上的抖动示意图

在实例设计上，与传统多实例学习的设定一样，实例与实例间是相互独立的。但由于DeepFake是单帧篡改的，导致同一人脸在相邻帧上会有一些抖动，如图3所示，我们设计了时空实例，用来刻画帧间一致性，用于辅助DeepFake检测。具体而言，我们使用文本分类里常用的1-d卷积，使用不同大小的核对输入的人脸序列从多视角上进行编码，以得到时空实例，用于最终检测。