解铃还须系铃人!南加大训练AI检测Deepfake“假视频”,准确率超90%

百家 作者:大数据文摘 2019-07-15 05:06:15

大数据文摘出品

来源:VICE

编译:李馨瑜、Aileen


还记得权力的游戏第八季么? Jon Snow也加入了千万骂编剧的粉丝的阵营,并且因此向粉丝道歉。


<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_898680800948977664" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2Fwc7YNPm3YxVuUmLf0L4pxtibY50MZtjndsYjU2icGNaKNBrp6cwjr7WTBwhUSd9Qbk8jb0PciaDR4YIBibNQJ1ZvdQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="2.1055555555555556" data-w="1516" data-src="http://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&auto=0&vid=wxv_898680800948977664" width="352" height="198" data-vh="198" data-vw="352" scrolling="no" style="display: none; width: 352px !important; height: 198px !important; overflow: hidden;"></iframe>


这个视频当然是假的,他嘴巴的移动方式看起来就很奇怪。


这是一个DeepFake生成的视频,一个用来娱乐或欺骗大众人工智能产物。


之前文摘菌也报道过,这项技术的上线后就广受诟病,后来又有一个小团队开发出一款新的应用DeepNude,可以一键实现脱衣,之后也因为反响恶劣而被迫下架。


人们对于无法分辨真假的恐惧是合理的,毕竟这种技术的出现将会滋生出许多想象不到的新的犯罪手段的诞生。


最近,南加州大学信息科学研究所计算机的研究人员发表一篇论文,研究通过训练AI寻找视频画面中的不一致性来检测AI生成的假视频,论文同时也被提交到CVPR 2019。


用AI对抗AI,来看看如何实现


对于伪造生成的假视频,研究人员发现,用于生成虚假视频的主流AI模型(以及其他方法,如2016年的Face2Face程序),都是通过逐帧修改视频且并不注意时间的连贯性。这会使得生成视频中的人物移动看起来非常笨拙,人们通常会注意到这类奇怪的动作。


为了实现找出奇怪动作这一过程的自动化,研究人员首先要训练一个神经网络—这种人工智能程序以个人的海量视频为基础,可以用来“学习”人类在说话时如何移动的重要特征。


然后,研究人员使用这些参数将伪造视频的堆叠帧输入AI模型,以检测视频随时间的不一致性。根据该论文,这种方法可以判断“AI伪造视频”,准确率超过90%。


研究人员使用的模型是一个递归卷积模型(Recurrent convolutional model),这个深度学习模型能够很好的提取到视频中的信息。


整个过程分为两步:


将视频中的人脸进行裁剪对齐


对于获取人脸区域,研究人员使用由FaceForensics++提供的模型。


论文链接:

https://arxiv.org/abs/1901.08971


研究人员尝试了两种人脸对齐技术的结合:

  • 显式使用面部坐标对齐,在参考坐标系中,人的面部是先天决定的,所有的面孔是使用同一个参考坐标系;

  • 隐式排列对齐,使用STN。


在后一种情况下,网络根据输入图像预测对齐参数,因此可能学会缩放人脸的特定部分,必要时可将训练集中的预期损失最小化。


在这两种情况下,核心思想都是我们希望循环卷积模型将人脸“tubelet”作为输入,这是一个跨越视频帧的时空紧密对齐的人脸序列。

所有篡改类型的检测精度。结果表明,采用线性和双向递归网络的DenseNet性能最好


基于视频人脸篡改的检测


对于人脸篡改的检测,我们使用一个类似于用于视觉识别的Long-term循环卷积网络。


论文链接:

https://arxiv.org/abs/1411.4389


其中输入是来自查询视频的帧序列,这个模型背后是在利用跨帧的时间差异。由于篡改是在逐帧的基础上进行的,研究人员认为图像中会存在时间差异。因此,由对人脸的篡改引起的低层次的差别则有可能表现为跨帧不一致特性的时间差异。


骨干网络(Backbone encoding network)


在实验中,研究人员探索了ResNet和DenseNet两种架构作为模型的CNN分量。


无论采用何种架构,首先对主干网络进行FF++训练分割,使交叉熵损失最小化,进行二值分类,形成特征,从合成人脸中识别真实人脸。然后用RNN对Backbone进行扩展,最后在多种策略下形成端到端训练。


RNN的训练策略


研究人员使用放置在骨干网络不同位置的多个循环模型进行实验:用它将骨干网络连接在一起,用来进行特征学习,将特征传递给随时间推移聚合输入的RNN。


在这里研究人员也尝试了两种策略:一是在骨干网的最终特性基础上,简单地使用单一的递归网络;二是尝试在骨干网结构的不同层次上训练多个递归神经网络。



所有篡改类型的ROC曲线。每一行对应一个不同的篡改类型。左列为线性图,右列为线性对数图


希望能从源头阻止deepfake假视频


研究的共同作者Wael AbdAlmageed表示,这种模式可以被社交网站和视频网站用于大规模识别deepfake假视频,因为它不需要通过“学习”特定个体的关键特征来进行识别,而是通用的。


“我们的模型对于任何人来说都是通用的,因为我们不关注某个人的身份,而是关注面部运动的一致性,”AbdAlmageed说,“我们将发布自己的模型,所以社交网络无需训练新的模型。网站只需要在其平台中加上该检测软件,以检查上传到平台的视频是否为deepfake生成的假视频。”


机器学习的出现让造假的成本逐渐变低,很多玩火不嫌事大的开发者还开发出许多不需要写代码直接可以造假的小软件,尽管他们不一定是出于恶意,但是不排除软件最后被用到“作恶”的地方。


虽然还有许多方法可以反“AI造假”(例如在拍摄图片时生成"噪声水印"),但利用AI来识别AI造假,并且将这项技术加载到视频网站的审查过程中,那么从源头大规模地阻止假视频流向公众,或许可以成为现实。


相关报道:

https://www.vice.com/en_us/article/evy8ee/ai-can-now-detect-deepfakes-by-looking-for-weird-facial-movements



实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


志愿者介绍

后台回复志愿者”加入我们

点「在看」的人都变好看了哦

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接