合成数据助力亚马逊Alexa学会第十门外语,还会自己造句
大数据文摘出品
来源:venturebeat
翻译:徐玲、曹培信
学一门外语需要多长时间?
如果说大部分中国人的一外是英语,已经学了十几年甚至几十年了,那么学一门二外需要多久呢?你能同时学好几门外语吗?
文摘菌反正是做不到的,但是亚马逊的Alexa就一次性学习了三门外语,至此Alexa学会的语言已经达到了10种。
最近,亚马逊高级科研经理Janet Slifka在Alexa博客上的一篇文章中表示,Alexa又学会了新的全球性语言:印地语、美国西班牙语和巴西葡萄牙语,合成数据(Synthetic data)在这方面起到了很大的帮助,但这不是最终的万能解决方案,这些语言需要新的引导工具。
其中一个工具是由亚马逊的Alexa AI应用建模和数据科学小组开发的,它使用一种名为“语法归纳(Grammar Induction)”的技术来分析“黄金例句(Golden Utterances)”(即Alexa功能团队提出的典型用户请求示例)并产生一系列可以生成相似句子的表达式。
另一种是“引导重采样(Guided Resampling)”,它通过从现有数据中的例子中重组单词和短语来创造新句子,重点是优化句子类型的数量和分布。
Slifka指出,当Alexa的新语言版本处于积极开发阶段时,团队会为系统编译训练数据,以了解用户的意图,Alexa的一部分训练数据来自人工智能模型翻译的现有语言,其余部分通常来自工作人员和一款向用户提供提示性信息的Alexa语音应用Cleo。
该语法系统使用一种称为贝叶斯模型的技术来合成一种代表性语法,或者通过插入、删除和替换单词来改变基本模板句的一组重写规则。通常情况下,一个计算语言学家一天可能要处理50个例句,但该工具通过识别话语列表中的模式并使用它们为数千个模板生成100多个候选规则,将处理过程缩短到几秒钟。例如,如果两个词(如“pop”和“rock”)出现在相似的句法位置上,但围绕它们的短语却各不相同,它可能会提出一个候选规则,即“pop”和“rock”在某些上下文中可以互换。
并且,语法系统可以自动确定哪些规则在样本数据中造成了最大的差异(而不会以偏概全),这些规则在流程的进一步迭代中成为合格的变量。还有另外一个好处是它能够利用现有的Alexa目录中频繁出现的术语或短语。例如,如果例句是与体育相关的,并且它确定“凯尔特人”和“湖人”这两个词是可以互换的,那么它就会得出这样的结论:它们也可以与“勇士”、“马刺”、“尼克斯”和其他所有Alexa知道的NBA球队的名字互换。
至于引导重采样工具,它同样使用目录和现有的示例来扩充自然语言理解训练数据。具体来说,它通过替换话语中的元素来生成额外的训练样本,例如:“play Justin Bieber” 和 “can you play a song by Camila Cabello?” 使用所谓的Jaccard指数来评估内容之间的两两相似(Jaccard指数度量两个集合之间的重叠-在这个例子中,是不同类型请求中的内容。)其结果是,该系统为更复杂的话语数据模式生成比例更大的训练集,Slifka指出,这有助于人工智能模型实现更高的性能。
Slifka写道:“Alexa一直在变聪明,AMDS研究人员的这些创新,将有助于确保Alexa在新的语言领域发布时获得尽可能好的体验。”
相关报道:
https://venturebeat.com/2019/10/11/amazon-explains-how-alexa-learns-new-languages/
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平主席的G20峰会时间 7920781
- 2 孙颖莎王艺迪不敌日本削球组合 7902459
- 3 高三女生酒后被强奸致死?检方回应 7805662
- 4 二十国集团里约峰会将会卓有成效 7740329
- 5 国乒男队多场比赛遭遇一轮游 7697538
- 6 一个金镯子省出1200元 金价真跌了 7519809
- 7 胖东来:员工不许靠父母买房买车 7496580
- 8 俄导弹击中乌水电站大坝 7378764
- 9 马夫儿子回应父亲猥亵女驴友 7237177
- 10 智慧乌镇点亮数字经济新未来 7100851