从16.6%到74.2%,谷歌新模型刷新ImageNet纪录,第一作者是上海交大毕业生谢其哲
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
谷歌的EfficientNet进化之后,又刷新了ImageNet纪录。
这个叫Noisy Student的新模型,将ImageNet图像分类的top-1准确率提高到了87.4%,比此前最好的FixResNetXt-101 32×48d高出了1%。
更令人惊叹的是,在ResNeXt-101 32×48d只达到了16.6%top-1准确率的ImageNet-A测试集上,Noisy Student一举将准确率提高到了74.2%。
新模型来自谷歌大脑首席科学家Quoc V. Le的团队,而论文第一作者,则是毕业于上海交大ACM班的谢其哲,目前正在CMU攻读博士,是谷歌大脑的学生研究员。
实现方法
提升如此明显,但方法却并不复杂。Noisy Student是站在了EfficientNet这位“名师”的肩膀上。
第一步,是用ImageNet中带标签的图像训练EfficientNet。
EfficientNet是谷歌开源的缩放模型,基于AutoML开发, 初登场就刷新了ImageNet的纪录,准确度为84.4%(top-1)和97.1%(top-5),并且模型更小更快,效率提升达10倍之多。
对于这一模型,量子位做过详细的解读:https://mp.weixin.qq.com/s/DCRpBUJE98ckZnrouuVo6Q
第二步,在一个更大规模的数据集上,用EfficientNet给无标签图片打上伪标签。
这一步中,研究人员选择的是谷歌的JFT数据集。这一数据集拥有300M图片,是ImageNet的300倍。
然后,将有标签的图像和被打上伪标签的图像组合起来,训练一个更大的学生模型。
新的学生模型又会成为新的老师,迭代这一过程。
在生成伪标签的过程中,教师模型不会被噪声干扰,以便提高伪标签的置信度。
但学生模型在训练的过程中,会面临来自随机深度、dropout和RandAugment带来的噪声干扰。这就迫使学生模型不得不从伪标签中进行学习。
在训练的过程中,EfficientNet也会不断更新。其中,最大的模型EfficientNet-L2需要在2048核的Cloud TPU v3 Pod上训练3.5天。
性能表现
开头已经提到,这个新的Noisy Student模型再一次刷新了ImageNet的纪录,现在来看看它的具体战绩:
在top-1准确率上,EfficientNet和Noisy Student的组合将最佳成绩提高了1%,并且模型的参数规模远小于Facebook的FixResNetXt-101 32×48d。
而在更加严格测试集上,Noisy Student的进步更为显著。
ImageNet-A测试集包含7500个自然对抗样本,会导致SOTA模型的准确率大大下降。比如来自Facebook的知名选手ResNeXt-101 32×48d,就只能达到16.6%的top-1准确率。
在这个基准当中,Noisy Student一举将top-1准确率从16.6%提高到了74.2%。
Image-C和Image-P测试集则包含了模糊、雾化、旋转和缩放过的图像。换句话说,测试图像完全不同于模型的训练数据。
在ImageNet-C上,Noisy Student将平均错误率从45.7降到了31.2。
在ImageNet-P上,Noisy Student将平均翻转率从27.8降到了16.2。
也就是说,这个新模型不仅准确率又进一步,在鲁棒性上,更是实现了惊人的进步。
根据论文作者介绍,模型代码将尽快释出,不妨先mark一下~
传送门
论文地址:
https://arxiv.org/abs/1911.04252
— 完 —
大咖齐聚!第一批参会嘉宾重磅揭晓
量子位 MEET 2020 智能未来大会启幕,李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、黄刚等AI大咖与你一起读懂人工智能。观众票即将售罄,扫码报名预定席位 ~
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7935340
- 2 中国黄金原董事长家搜出大量黄金 7926130
- 3 空调英文不会男生盯着考场空调看 7895929
- 4 消费品以旧换新“加速度” 7735379
- 5 被铁路售票员的手速惊到了 7622243
- 6 网红赤木刚宪爆改赵露思 7573192
- 7 县委原书记大搞“刷白墙”被通报 7401395
- 8 山姆代购在厕所分装蛋糕 7309031
- 9 马龙刘诗雯穿正装打混双 7227855
- 10 刘强东提前发年终奖 7174539