酷应用

谷歌最新T5模型17项NLP任务霸榜SuperGLUE，110亿参数量！

百家作者：新智元 2019-10-27 05:02:59

AI WORLD 2019 世界人工智能峰会精彩重放！

10 月 18 日，2019 中关村论坛平行论坛 ——AI WORLD 2019 世界人工智能峰会在北京启幕。新智元杨静、科大讯飞胡郁、微软王永东、华为王成录、英特尔宋继强、旷视及智源学者孙剑、滴滴叶杰平、AWS 张峥、依图颜水成、地平线黄畅、autowise.ai 黄超等重磅嘉宾中关村论剑，重启充满创新活力的 AI 未来。峰会现场，新智元揭晓?AI Era 创新大奖，并重磅发布?AI 开放创新平台和献礼新书《智周万物：人工智能改变中国》。回放链接：

【腾讯科技】

客户端：https://view.inews.qq.com/a/TEC2019101600718500 ? ?

PC 端：http://v.qq.com/live/p/topic/74606/preview.html

【海淀融媒】

https://m.toutiaoimg.cn/i6748195040323062540

【新浪科技】

http://video.sina.com.cn/l/p/1728577.html

??新智元报道??

来源：github

【新智元导读】谷歌提出了一个新的预训练模型：T5。该模型涵盖了问题解答，文本分类等方面，参数量达到了110亿！一举超越ALBERT，刷新Glue榜单，成为全新的NLP SOTA预训练模型。在SuperGlue上，T5也超越了Facebook提出的的RoBERTa，以89.8的得分成为仅次于人类基准的SOTA模型！欢迎来新智元 AI 朋友圈与大咖一起讨论～

谷歌在最新发布的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一个新的预训练模型：T5。该模型涵盖了问题解答，文本分类等方面，参数量达到了110亿！一举超越ALBERT，刷新Glue榜单，成为全新的NLP SOTA预训练模型。

榜单地址：

https://gluebenchmark.com/leaderboard

甚至在GLUE的升级版SuperGlue上，T5也超越了Facebook提出的的RoBERTa，以89.8的得分成为仅次于人类基准的SOTA模型！

榜单地址：

https://super.gluebenchmark.com/leaderboard

T5：稳健推进，暴力碾压

从论文中我们了解到，谷歌的T5模型没有用到什么新的方法，而是从全面的视角来概述当前 NLP 领域迁移学习的发展现状。不过谷歌能让110亿参数跑在seq2seq模式上，并且一举超越现有最强模型成为新SOTA，证明了该方式的可行性。

因此本次T5算不上出奇制胜，而是像一个巨大的战舰一样，稳健推进暴力碾压，在摘要生成、问答、文本分类等诸多基准测试中都取得了 SOTA 性能。

作为一个文本到文本的统一框架，可以将同一模型、目标、训练流程和解码过程，直接应用于实验中的每一项任务。研究者可以在这个框架上比较不同迁移学习目标、未标注数据集或者其他因素的有效性，也可以通过扩展模型和数据集来发现 NLP 领域迁移学习的局限。

谷歌编写的通用知识训练语料库中的片段来自Common Crawl网站，该项目每个月从网络上爬取大约20 TB的英文文本。

为了过滤出乱码、菜单和错误消息，仅保留以终端标点符号（句点，感叹号，问号或结束引号）结尾的文本行，同时删除带有明显填充文本和重复项的页面。最终所得到的集合比预训练的数据集大了一个数量级，约为750GB。该数据集Colossal Clean Crawled Corpus（C4）已开源。

T5模型构造

研究人员在语料库上训练了几种基于Transformer的模型，以评估其文本到文本方法的有效性。

研究人员使用的编码器-解码器 Transformer 基本依照了原版 Transformer 架构。解码器包含了一堆“块”，其中每个块又包含两个子部件：自注意力层和小的前馈网络。

自注意力不受顺序的影响，因此就可以将明确的位置信号提供给Transformer，如今比较流行的做法是使用相对位置嵌。相对位置嵌入和固定嵌入的方式不同，它是根据自注意力机制，对比key和query之前的偏置，生成一个不同的学习到的嵌入，权重是动态的。

论文提到的所有的模型都使用了32个嵌入，范围的大小能够以对数方式增加，最高能到128偏置。研究人员还使用了一种简化的位置嵌入来提高效率，每个嵌入只是作为添加到用于计算注意力权重的相应logit的一个标量。

不过团队也承认，T5在诸如翻译之类的语言任务中不尽人意，研究人员将此归咎于特定任务数据的相对缺乏和培训规模的不足。因此，他们提倡研究使用较小的模型实现更强性能的方法，以便将迁移学习应用于影响最大的地方。

该论文的合著者写道：“我们的研究得出重要的结果是：较大的模型往往表现更好。用于运行这些模型的硬件一直在变得越来越便宜，功能越来越强大，这一事实表明，扩大规模可能仍然是实现更好性能的有前途的方法。但是，在某些应用程序和场景中，总是存在使用较小或较便宜的模型有帮助的情况，例如在执行客户端推断或联合学习时。”

大模型攻坚、小模型扫尾。NLP模型在SuperGLUE上彻底超越人类的一天，还远吗？

论文链接：

https://arxiv.org/abs/1910.10683 Github?

GitHub链接：

https://github.com/google-research/text-to-text-transfer-transformer