1080Ti就搞定最新SOTA模型?一个普通研究生勇敢发毕业论文引起热议

百家 作者:新智元 2021-06-07 19:17:55



  新智元报道  

来源:Reddit

编辑:好困

【新智元导读】除了在顶会或者期刊上发表过的,一般人基本都会把自己的毕业论文「雪藏」起来。然而,有这么一位研究生不仅把自己的论文发了出来,还表示自己用1080Ti训练的比SOTA模型更厉害。


大厂用成千上万张显卡训练的SOTA模型已经看腻了?这次我们来看看「小作坊」训练的模型如何。

 


慕尼黑大学的研究生做了一个Deep Fake模型,只用了300万个参数和一个1080Ti,搞定!堪比SOTA!



虽然作者是这么说的,但是从他发布的成果上来看,有些一言难尽。


左边是原本的视频,右边是提供声音的素材,中间是生成的Deep Fake视频


由于样本只提供音频素材,所以声音还是样本的声音,听起来违和感简直要溢出屏幕了。好在不会出现像其他一些视频那样把整张脸贴上去那么搞笑。


网友用FakeAPP生成的视频


作者表示,和一些SOTA模型比,论文的方法除了具有较低的嘴唇同步误差,同时在图像质量方面要优于所有方法


从左到右依次是:原视频,文章的方法, Neural Voice Puppetry,Wav2Lip和Wav2Lip GAN


全连接网络就够了

模型基于3D可变形人脸模型 (3DMM),并具有 3D 面部的位置编码和从英语语音中提取的音频特征。

对于给定的语音,模型可以预测中性空间的RGB颜色和3D顶点位移。音频特征向量过滤的时间稳定性可以提供平滑的唇音同步。


文章表示,模型可以接受任意音频输入,并生成逼真的面部图像。

模型首先提取梅尔频率倒谱系数(MFCC)特征,音频的嵌入由Wav2Lip编码器生成。

然后,变形(deformation)网络输出人物面部形状的网格,且不受3DMM的限制,并在之后利用恒等函数对3D形状进行优化。

最后,由音频驱动的图像由颜色(color)网络输出。


为了将输出图像嵌入到背景中,需要单独训练另一个基于背景和先前输出的合成网络。

模型每个部分的输出,从左至右:变形网络、颜色网络、合成网络

再来一个例子,从左至右依次是:原始的视频,渲染后的视频,仅用于获取音源的视频。


网友表示:你这个不行啊

对于项目本身,评价基本是负面的。

「那么,这与在奥巴马的静音视频上播放音频的结果有什么不同呢?」


「奥巴马的嘴唇似乎并没有遵循着说话的轨迹」


不仅如此,对于Deep Fake这类的研究,网友普遍对其伦理道德方面表示担忧。

「有时我想到这些技术是如何被滥用的,这让我对未来感到有点难过」


「它不仅会陷害无辜者,也会为有罪者提供合理的推诿」


所以你决定既要改进deep-fake,又要使用凯文-史派西(有道德污点)。你基本上是每个人工智能伦理学家最糟糕的噩梦。


这件事从另一个方面告诉我们,不要把自己的毕业论文发出来,难道来自导师的嘲讽还不够么

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接