学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化
选自arXiv
机器之心编译
参与:路雪、刘晓坤
日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,并提出了一系列新型正则化方法。机器之心对该论文进行了编译。
论文链接:https://arxiv.org/abs/1710.05468
本论文解释了为什么深度学习在面临容量过大、算法不稳定、非鲁棒和尖点等问题时仍能实现较好的泛化。基于理论的探索,该论文提出了一系列新的正则化方法。实验证明,即使其中最简单的方法也可以将基础模型在 MNIST 和 CIFAR-10 上的表现提升到业内最佳水平。此外,本文提出了数据依赖性(data-dependent)和数据独立性的泛化保证,它们提高了收敛速度。我们的研究引出了一系列新方向。
1 引言
一些经典的理论研究把泛化能力归功于小容量模型类别的使用(Mohri et al., 2012)。从与小容量相关的紧凑表示(compact representation)的角度来看,深度模型类别在展示特定的自然目标函数时比浅层的模型类别具有指数优势(Pascanu et al., 2014; Montufar et al., 2014; Livni et al., 2014; Telgarsky, 2016; Poggio et al., 2017)。也就是说,如果模型类别中包含的某些假设(如分段线性转换的深度合成)被目标函数近似满足,则与不依赖该假设的方法相比,该模型可以实现很好的泛化。但是,近期的一篇论文(Zhang et al., 2017a)的实验表明成功的深度模型类别具备足够的容量来存储随机标签。该观察叫作「apparent paradox」,引起了研究者的广泛讨论。Dinh et al. (2017) 认为解释深度学习模型为何能够在大容量的情况下仍然实现较好的泛化效果是一个仍待研究的领域。
在本论文中,我们提出了对「apparent paradox」的一种解释。第三章从理论上证明了「apparent paradox」不仅存在于深度学习中,还存在于整个机器学习中。第四章中,我们认为应该重新思考泛化和学习理论,并通过重新思考得出了对深度学习中的泛化的一种新理解。第五章介绍了泛化界的改进,第六章介绍了对正则化的一种有用的理论见解。
3 重新思考机器学习中的泛化
Zhang et al. (2017a) 的实验表明多种深度模型类别能够存储随机标签,并且在特定的自然数据集(如 CIFAR-10)上的输出包含零训练误差和很小的测试误差。他们的实验还观察到在权重范数上的正则化似乎未必产生小的测试误差,这与传统观点并不一致。
命题 1 认为这些现象并不局限于深度学习和线性模型类别中:任何机器学习模型类别本质上都具备这些现象的核心特性。
命题 1 给定(未知)度量 P_(x,y) 和数据集 S_m,假设存在,在时,使。那么
(i)对于模型复杂度能够存储任意数据集和在任意尖点(sharp minimum)上可能包括的任意模型类别 F,存在 (A, S_m) 使泛化差距不超过;
(ii)对于任意数据集 S_m,存在任意不稳定和非鲁棒的算法 A,使的泛化差距不超过。
5 神经网络的泛化保证
上一章通过实例对泛化进行解释。然而,求出泛化差距(Role 2)的理论保证仍然是很有意思的问题,这正是本章所关注的内容。为了更仔细地分析神经网络,本章将对神经网络直接进行分析,而不是从基于容量、稳定性或鲁棒性的一般理论中推导出神经网络的结果。
6 对实用价值的理论洞察
本章中,我们关注具备 d_y 个类别的多分类问题,如图像目标分类。相应地,我们将使用 0—1 损失函数分析期望风险,即 R[f] = E_x[1{f(x) = y(x)}],其中
是模型的预测,y(x) ∈ {1, . . . , d_y} 是 x 的真实标签(参见 2.4.1 中对随机标签的扩展,Mohri et al. 2012)。
6.3 实验结果
通过向现有的的标准代码中添加等式(2)中新的正则化项:
我们在 MNIST 和 CIFAR-10 数据集上对论文中提出的方法(DARC1)进行了评估。
表 1:测试误差(%)。LeNet 和 ResNeXt-29(16 × 64d)的标准变体和添加了本文研究正则项的模型在 MNIST 和 CIFAR-10 数据集上的比较结果。
表 2:测试误差率(DARC1/Base)
表 3:每一个模型的正则化项 的值。
7 结论
我们从逻辑上理解理论和实践存在差异,进而将泛化理论分成了几个部分,并对每一个部分都作出了如下贡献:
对深度学习中的泛化进行解释(Role 1);
对泛化边界的改进(Role 2);
对正则化的有用的理论洞察(Role 3)。
根据我们在 5.3 中的观察结果,如果可以在分析中正确处理深度路径激活向量 z_i 的依赖性,则我们可以获得严格的保证。通过明确地破坏依赖,我们的二阶段训练流程可以使理论分析更加简单。然而,有趣的是,未来的研究是否能在不使用二阶段流程的情况下,在分析中严格地控制依赖呢?
我们第 6 章的理论洞察衍生了一族新的泛化方法,即 DARC。我们对其最简单的版本进行了评估,实验产生多个有潜在价值的结果,表明 DARC 具有进一步研究的价值。
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7981624
- 2 中国黄金原董事长家搜出大量黄金 7997667
- 3 空调英文不会男生盯着考场空调看 7845639
- 4 消费品以旧换新“加速度” 7774539
- 5 被铁路售票员的手速惊到了 7648361
- 6 网红赤木刚宪爆改赵露思 7542434
- 7 县委原书记大搞“刷白墙”被通报 7496647
- 8 山姆代购在厕所分装蛋糕 7390412
- 9 马龙刘诗雯穿正装打混双 7266647
- 10 刘强东提前发年终奖 7146620