来源:b站
编辑:雅新、白峰
【新智元导读】近日,B站up主大谷老师再次用AI上演了一波神笔马良!杜甫激情献唱奥特曼主题曲,朱元璋尽显王之霸气,林妹妹、兵马俑、徐悲鸿都跨越时空来凑热闹了。
还记得AI复原的100年前老北京和上海时装秀的原声录像吗?近日,B站up主 @大谷Spitzer 再次用AI「画笔」复原了尘封多年的历史。杜甫「天眼」一开,没有吟诗,而是唱起了奥特曼主题曲《奇迹再现》,还挺有节奏。秦始皇兵马俑被誉为世界第八大奇迹。每个兵马俑的表情都是千奇百态,几千年过去了,我们很难想象出他们在秦朝的样子。今天,大谷让这些兵俑重新焕发了生机,穿越前年来和你对话。去过兵马俑后,大家都会对这些泥塑真人古迹的感到震撼。再看用AI复原后的兵马俑,竟变成了有血有肉的大叔。明朝开国皇帝朱元璋复原后这一傲娇的表情,我瞬间收藏了。天生抑郁体制的林黛玉图像复原后,让人瞬间眼前一亮。柳叶眉,樱桃唇,鹅蛋脸,一颦一笑,让人心生欢喜。还有蒋兆和老先生的水墨画《老伴》,老爷爷和老奶奶的对话场景活灵活现。大谷很热心地分享了自己用到的AI模型,全是开源的GitHub项目。只要沉下心来研究大谷的教程,你也能让杜甫舞动起来。ArtBreeder 的是一个在线工具,可以让用户使用生成对抗性网络(GAN)来操纵人物肖像和风景。要做的很简单,登录 ArtBreeder 网站,输入自己想要风格化的图像,使用滑块进行调整就能完成,十分方便。如果想要特定风格的,就需要StyleGAN了,StyleGAN2是StyleGAN的升级版,可以更加精细的进行风格迁移。StyleGAN2重新定义了无条件图像建模,无论是在现有的分布质量指标还是感知图像质量方面都达到了SOTA。StyleGAN2对上一代的StyleGAN方法进行了改进,并对模型结构和训练方法进行了调整,让图像的生成质量更好。StyleGAN2训练的速度更快,新生成的图像受伪影的影响更小,多图像的混搭风格更好,插值更加平滑,因此看起来过渡比较平滑。First-Order-Model,让静态人物动起来
大谷使用了一个基于First-Order-Model的动态转换模型,该模型只需要输入一个动态视频和杜甫的静态图片,就可以让杜甫模仿出视频中人物的动作。这个模型可以根据驱动视频的运动,对源图像中的对象进行动画处理,以生成视频序列,而无需使用任何注释或有关特定对象的先验信息。模型采用自监督的方法将外观和运动信息分离,使用了视频中对象的关键点及其局部仿射变换进行特征表示。First-Order-Model模型由两个主要模块组成:运动估计模块和图像生成模块。运动估计模块的目的是预测密集的运动场。我们假设存在一个抽象的参考框架,然后独立地估计了两种转换:从参考到源以及从参考到驱动,这样的设计使模型能够独立处理源帧和驱动帧。模型直接生成的视频可能在动作不够连贯,这时就需要一个视频插帧的步骤,让动态图像显得更自然,大谷同样采用了一个开源视频帧插值模型DAIN。DAIN的全称是深度感知视频帧插值,模型通过探索深度信息来显式地检测遮挡。该项目开发了一个深度感知流动投影层,优选取样更近的物体,以合成中间流插补视频帧。此前在另一个视频中,大谷还使用了一个超分辨率工具ESRGAN。当First-Order-Model生成的视频分辨率低,而DAIN插值后效果又不好,就可以考虑使用ESRGAN加一个超分辨率的后处理。ESRGAN:ESRGAN改进自SRGAN ,主要用来做视频超分辨率。与SRGAN的深层模型越来越难以训练相反,更深层次的 ESRGAN 模型通过简单的训练就能达到卓越的性能,核心点在于平衡视觉质量和峰值信噪比的网络插值策略。大谷老师的B站粉丝数已经将近9万了,如果你也想成为一个超人气AI明星,赶紧捡起你的Python吧!
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/