酷应用

语音识别训练时间由7天降至11.5小时，IBM提出分布式深度学习技术

百家作者：机器之心 2019-04-11 05:39:47

选自?venturebeat

作者：?KYLE?WIGGERS

机器之心编译

参与：淑婷、杜伟

语音识别系统构建过程通常由两部分组成：训练和识别，而训练需要对预先收集的语音、文本等数据进行处理，获取语音识别系统所需的模型。因而，训练时间和模型大小至关重要。IBM?在其新发布的论文中提出一种异步分散并行随机梯度下降的分布式处理架构，将语音识别训练时间缩短到了?11.5?小时。

可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常，训练自然语言理解模型需要包含数千小时语音和数百万（甚至数十亿）单词文本的语料库，以及能够在合理时间内处理这些数据的强大硬件。

为了减轻计算负担，IBM?在其新发布的论文《Distributed?Deep?Learning?Strategies?for?Automatic?Speech?Recognition》中提出了一种分布式处理架构，该架构在流行的开源基准?Switchboard?上实现了以往?15?倍的训练速度，而没有损失准确率。论文作者表示，在包含多个显卡的系统上部署该架构，它能够将总的训练时间从几周缩短为几天。

该论文计划在下个月的?IEEE?国际声学、语音与信号处理会议（ICASSP）上发表。

论文作者?Wei?Zhang、Xiaodong?Cui?和?Brian?Kingsbury?在即将发表的博客中解释称：训练类似苹果的?Siri、谷歌助手、亚马逊的?Alexa?这样的自动语音识别系统需要复杂的编码系统来将语音转化为深度学习系统能够理解的特征，以及相应的解码系统来将输出转化为人类可读的文本。而模型也往往更大，导致大规模训练变得更加困难。

该团队的并行解决方案需要增加批量或可以一次性处理的样本数量，但需要加以区分，这将会对准确率产生负面影响。相反，他们使用「原则性方法」将批量增加至?2560，同时应用了称为异步分散并行随机梯度下降（ADPSGD）的分布式深度学习技术。

据研究人员解释，大多数深度学习模型要么采用同步方法（受慢系统影响较大），要么采用基于参数服务器（PS）的异步方法（往往生成不太准确的模型）进行优化。相比之下，IBM?在去年一篇论文中首次详细说明的?ADPSGD?是异步和分散的，保证模型准确率处于基线水平，并为某些类型的模型优化提供加速。

在测试中，论文作者称?ADPSGD?将?ASR?工作运行时间从单个?V100?GPU?上的一周缩短至?32-GPU?系统上的?11.5?小时。他们希望未来的工作算法和系统可以处理更大的批量以及优化更强大的硬件。

Zhang、Cui?和?Kingsbury?写道：「在半天内完成一项训练是比较理想的，因为这样能让研究人员快速迭代开发新的算法。同时还使得开发人员可以快速周转时间，让现有模型适应他们的应用程序，尤其适用于那些需要大量语音来实现鲁棒性和可用性所需的高准确率的定制用例。」

原文链接：https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/

本文为机器之心编译，转载请联系本公众号获得授权。

?------------------------------------------------

加入机器之心（全职记者?/?实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告?&?商务合作：bd@jiqizhixin.com

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由机器之心发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/239939.html

IBM 分布式

图库

机器之心

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数