学界 | 迁移学习 + BPE,改进低资源语言的神经翻译结果
选自arXiv
作者:Toan Q Nguyen、David Chiang
机器之心编译
参与:李亚洲、路雪
在本论文中,作者结合迁移学习与 BPE 方法,使用低资源的相关语言的平行数据改进同样低资源语言的神经机器翻译结果。
论文:Transfer Learning across Low-Resource, Related Languages for Neural Machine Translation
链接:https://arxiv.org/abs/1708.09803
摘要:我们提出了一种简单的方法,对一种低资源的语言对的神经机器翻译结果,使用同样低资源的相关语言的平行数据帮助改进。这种方法主要基于 Zoph 等人提出的迁移方法,但他们的方法忽略了源词汇重复,我们的方法对此进行了开拓。首先,我们使用 BPE(字节对编码)的方式分离单词来增加单词重复。然后,在第一种语言对上训练模型,将其参数(包括源词嵌入)迁移到另一个模型,再在第二种语言对上继续训练。我们的实验证明,虽然 BPE 方法和迁移学习单独用的时候表现不一致,但一起用时能提高 1.8 个 BLEU 值。
表 1:土耳其语与乌兹别克语中拥有同样词根的单词示例
表 2:训练数据中的 token 与句子的数量
图 1:不同设置下的 Tokenized dev BLEU 得分。注意:baseline = 只训练子模型;transfer = 先训练父模型,再训练子模型;+freeze = 在子模型中 freeze 目标词嵌入
表 4:在父模型中出现的源词嵌入占子模型源词嵌入的比例
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7955559
- 2 中国黄金原董事长家搜出大量黄金 7960938
- 3 空调英文不会男生盯着考场空调看 7889597
- 4 消费品以旧换新“加速度” 7710596
- 5 被铁路售票员的手速惊到了 7638663
- 6 网红赤木刚宪爆改赵露思 7581494
- 7 县委原书记大搞“刷白墙”被通报 7473929
- 8 山姆代购在厕所分装蛋糕 7376933
- 9 马龙刘诗雯穿正装打混双 7221809
- 10 刘强东提前发年终奖 7179881