你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019
新智元报道
新智元报道
来源:arXiv、Science
编辑:肖琴
【新智元导读】来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅,本文带来技术解读。
人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。
最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_865298804940210176" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FUicQ7HgWiaUb2mJbIPcMgmP20p0PrPDS4NFPsXL9icL8McEAmh25FpU4UTsqtglia2kGfk11P0wBJlcKZE2ZhdQyUQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.7777777777777777" data-w="1280" data-src="http://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&auto=0&vid=wxv_865298804940210176" width="352" height="198" data-vh="198" data-vw="352" scrolling="no" style="display: none; width: 352px !important; height: 198px !important; overflow: hidden;"></iframe>
研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。具体来说,他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。
研究人员收集了10个人144小时的演讲视频,其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。
演讲视频数据集
他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。
图1:从语音到手势的转换的示例结果。由下往上:输入音频、由我们的模型预测的手臂和手的姿态,以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。
研究人员表示,在定量比较中,生成的手势比从同一说话者者随机选择的手势更接近现实,也比从一种不同类型的算法预测的手势更接近现实。
图2:特定于说话者的手势数据集
说话者的手势也是独特的,对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中,可以生成半真实的视频。
请看下面的demo视频:
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_865302646520020996" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FUicQ7HgWiaUb2mJbIPcMgmP20p0PrPDS4Nq9Nh4bzyg2YlnqnuH9ic8iczcqRwKNhiard2Sncug64MzPFkTqXKcpfgQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.7777777777777777" data-w="1280" data-src="http://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&auto=0&vid=wxv_865302646520020996" width="368" height="207" data-vh="207" data-vw="368" scrolling="no" style="display: none; width: 368px !important; height: 207px !important; overflow: hidden;"></iframe>
研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。
为了支持对手势和语音之间关系的计算理解的研究,他们还发布了一个大型的个人特定手势视频数据集。
给定原始语音,我们的目标是生成说话者相应的手臂和手势动作。
我们分两个阶段来完成这项任务——首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。
其次,为了避免回归到所有可能的手势模式的平均值,我们使用了一个对抗性鉴别器,以确保产生的动作相对于说话者的典型动作是可信的。
任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性,该编码考虑了输入语音的完整时间范围s,并一次性(而不是递归地)预测相应姿势的整个时间序列p。
我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的,如图3所示。
图3:语音到手势的翻译模型。
一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后,平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号,而一个对抗性辨别器D则确保预测的动作既具有时间一致性,又符合说话者的风格。
我们使用UNet架构进行转换,因为它的bottleneck为网络提供了过去和未来的时间上下文,而skip connections允许高频时间信息通过,从而能够预测快速移动。
图4:我们训练过的模型是特定于人的。对于每个说话者的音频输入(行),我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行,对角线上的项都是颜色最浅的,因为模型使用训练对象的输入语音效果最好。
表1:在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)
图5:语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。
项目:
http://people.eecs.berkeley.edu/~shiry/projects/speech2gesture/
论文:
https://arxiv.org/pdf/1906.04160.pdf
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平引领构建网络空间命运共同体 7970905
- 2 俄飞行员驾驶苏-57经停太原买买买 7907636
- 3 王楚钦拿下比赛怒吼 7823175
- 4 聆听大国外交的铿锵足音 7753050
- 5 两位抗癌网红先后去世 近期曾通话 7641285
- 6 张本智和赢球后摇头庆祝 7585604
- 7 熏鸡事变大结局 7454464
- 8 大范围降雪降温马上来了 7364998
- 9 男子打赏女主播400万自己啃馒头 7207902
- 10 9条具体措施稳外贸 7144974