阿里发布NLP和MT自学习平台,还剖析了小蜜平台的NLP技术实践

百家 作者:AI100 2019-09-29 04:07:32

随着BERT、XLNET等新技术的涌现,深度NLP在语言分析、理解和处理等问题上继续取得突飞猛进的发展,并为更多行业赋予了智能化能力。阿里云智能NLP平台提供了完整的NLP处理能力,并通过与场景的深度结合,在智能司法、智能医疗、智能客服等领域落地。


9月26日,在云栖大会的NLP专场,围绕阿里小蜜平台的技术布局、典型场景应用,阿里巴巴智能服务事业部资深算法专家陈海青介绍了阿里NLP核心技术及人机交互技术实践,技术挑战及未来。

 

值得一提的是,阿里达摩院还在此次专题上发布了NLP与MT自学习平台。

 

阿里小蜜的NLP技术实践

 

淘宝传统的服务模式是人找人的方式,去年平台平均每天的客服服务是5000万人次,所以自然需要通过机器智能方式解决问题。为此,阿里逐步搭建了小蜜智能交互平台以服务商家及其背后的用户。



陈海青介绍了阿里小蜜平台的三大模式升级:其一是服务模式的升级,从纯人力密集型向智能+人力混合型升级;其二是着力点的升级,从以服务为基础的智能人机交互领域额着力点向平台与多领域升级;其三是生态圈的升级,从阿里巴巴自身领域到二环商家再到企业平台领域的升级。


随后他展示了阿里小蜜平台的一些应用案例。以店小蜜为例,它可以构建物流场景的通用本体模,也可以构建手机、服饰类目等行业本体模型,此外还有QA匹配模型。

 

而对企业小蜜,有面向第三方企业、ISV等的智能解决方案,并以智能知识库的方式进行知识收集与积累。



拓展到电话的案例,还有热线小蜜,主要应用于呼入场景的电话客服还有呼出场景的电话回访机器人,陈海青在现场展示了菜鸟语音的交互效果。

 

NLP技术是这些应用背后的核心支撑技术。他介绍了自然语言处理板块的分层梳理流程,主要包括分层领域的框架设计,基于不同业务场景的意图和模型设计与积累,以及通过模型沉淀框架并进行平台化积累。这一板块做到了四种能力,QA Bot,task bot,predictbot,chit chat。

 


围绕数据、算法、服务、应用四个层面,他介绍了核心的NLU架构体系。其中包括数据的沉淀以及业务标注的训练平台体系构建;还有基于平台化算法框架的意图识别和实体识别能力搭建;基于规则,降级模型以及深度模型的NLU工程能力平台搭建。

 

他指出,当前NLU还是以意图识别和实体识别为核心能力。面临的核心挑战是意图的平台化扩展效率和小样本场景的冷启动,就NLU的效率和效果而言,主要涉及的问题是如何构建数据、算法和服务。

 


他重点简述了NLU的意图识别问题,主要分为文本分类和语义匹配任务。这需要做到迁移性好/扩展性好,新增类别或新增语料,无需重训模型;借助迁移能力,提升小样本场景效果。其次,鲁棒性要高,不容易受噪声样本影响,如类别向量,端到端学习。最后效果要好,统一距离度量空间,如:list-wiseloss, Softmax & Cross Entropy。为此,他们提出了LabelEmbedding的方法,以增强意图识别的鲁棒性。



他还介绍了提出了DeepQA平台,该平台的目标是提效+规模,帮助前台业务先赢,完成中台算法能力沉淀。中台提供各类场景的知识定位能力,支持了小蜜全系列产品,中台为业务运营人员提供业务分析方法论和运营平台,让零算法基础的运营人员可以完成也无需求分析、算法能力选择、算法模型定制和迭代优化。



该平台内置了面向各种场景、各类任务的性能和效果,兼具的算法模型。比如RE2-短文本匹配模型,相比相同效果的模型(CSRAN),在线推理的速度提升8倍。此外,中台通过bert+MTL+distill的流程,盘活各类数据,让bert对线上真实业务产生价值。

 

演讲最后,陈海清指出,智能服务机器人将以多模态的方式,不仅提供自动服务模式,同时提供更好的人机协同模式,为用户和客服人员提供更复杂问题的解决能力和决策支持能力。而持续探索的技术方向有生成模型、强化模型、迁移学习、机器阅读理解、情感分析等。

  

阿里发布 NLP与MT自学习平台

 

NLP自学习平台

 

大量低算法基础的客户,对文本实体抽取、文本分类、关键短语抽取等算法有定制化需求,需要一个可以低成本、易操作,可私有化输出及持续优化的NLP应用平台。

 

面向算法基础用户的NLP行业自适应标注、训练和服务平台,用户无需算法背景,仅需标注或上传适量文档数据,即可通过平台获得优质的NLP算法模型。

 

机器翻译自学习平台

 

传统的云端AI服务是由算法专家基于多种场景的需求和目标开发,有时不能完全匹配用户需要,但基于自身真实场景优化AI模型对用户的算法能力提出了很高要求。

 

机器翻译自学习平台为算法“小白”提供了直观、易用、可视化的 AI 优化工具,用户无需拥有丰富的算法背景,仅需上传适量双语文档数据,即可通过平台快速创建算法模型并使用。

 

目前,已支持中英和英中两个语向的机器翻译定制化算法能力,未来还将上线更多的语向能力支持,让人人都可轻松创建属于自身场景的专属模型。

(*本文为 AI科技大本营原创文章,转载请微信联系作者 1092722531)

精彩推荐


2019 中国大数据技术大会(BDTC)历经十一载,再度火热来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。【早鸟票】【特惠学生票】限时抢购,扫码了解详情!



推荐阅读

你点的每个“在看”,我都认真当成了喜欢

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接