最强记忆 VS 最强检索:T5 & REALM 你pick谁?

大数据文摘授权转载自安迪的写作间
如果突然让你回答,“ Geoffrey Hinton 的出生年月日是?”,相信大部分人是不知道的,转头直接百度或谷歌,然后找到相关词条,抽取关键信息,回答:“1947年12月6日”(冷知识 get)。
当然也不排除有少部分记忆非常强的人,曾经在某处看到过相关信息,并记了下来,立刻回答:“1947年12月6日”。
至于大部人,我相信属于第一种人,第二种可能... 谢耳朵吧。
这里提到的两个模型,类比的话,T5 便是那个将一切都记下来并回答的人,而 REALM 则是善于利用它的“搜索引擎”的人。
最强记忆 T5
关于 T5 模型,原理并不难,简单说就是:
一个超大Transformer Encoder-Decoder 模型(11B,110亿参数) Bert 式的文本破坏(corrupt)方法 Replace Span 的破坏策略 15% 的破坏比 破坏时 span 长度 3 加上 750GB 的文本数据

第一,Retriever 里面的向量编码器冷启动问题,如果一开始拿不到比较好的文本向量,使检索结果与 query 相关的话,那么 Retriever 就获得不到梯度,就会导致 Retriever 根本训练不起来;
第二,训练过程中,因为向量编码器中的参数是变化的,导致对于同样的文本,可能训练时不同步数的模型编码出来的向量不一样,那么之前 LSH 算法建立的索引是会有 gap。
Reference
[1] How Much Knowledge Can You Pack Into the Parameters of a Language Model?
[2] REALM: Retrieval-Augmented Language Model Pre-Training
[3] Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)
[4] How Does Google Affect the Way We Learn?
[5] Illustrating the Reformer
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn


关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 从“水之道”感悟“国之交” 7904362
- 2 台当局被曝和日本出现军事勾连迹象 7809065
- 3 1818名明星网红等人查补税款15.23亿 7712164
- 4 全国冰雪季玩法大盘点 7616611
- 5 女子遭75岁丈夫家暴 村民发声 7521358
- 6 周星驰《鹿鼎记》重映首日票房仅18万 7424504
- 7 净网:网民造谣汽车造成8杀被查处 7328473
- 8 政治局召开会议 分析明年经济工作 7234372
- 9 退学北大考上清华小伙被欠家教费 7138398
- 10 流感自救抓住“黄金48小时” 7039307







大数据文摘
