酷应用

学界 | Yoshua Bengio与MIT发表新论文：深度学习中的泛化

百家作者：机器之心 2017-10-18 06:10:54

选自arXiv

机器之心编译

参与：路雪、刘晓坤

日前，MIT 和 Bengio 发表新论文，探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因，并提出了一系列新型正则化方法。机器之心对该论文进行了编译。

论文链接：https://arxiv.org/abs/1710.05468

本论文解释了为什么深度学习在面临容量过大、算法不稳定、非鲁棒和尖点等问题时仍能实现较好的泛化。基于理论的探索，该论文提出了一系列新的正则化方法。实验证明，即使其中最简单的方法也可以将基础模型在 MNIST 和 CIFAR-10 上的表现提升到业内最佳水平。此外，本文提出了数据依赖性（data-dependent）和数据独立性的泛化保证，它们提高了收敛速度。我们的研究引出了一系列新方向。

1 引言

一些经典的理论研究把泛化能力归功于小容量模型类别的使用（Mohri et al., 2012）。从与小容量相关的紧凑表示（compact representation）的角度来看，深度模型类别在展示特定的自然目标函数时比浅层的模型类别具有指数优势（Pascanu et al., 2014; Montufar et al., 2014; Livni et al., 2014; Telgarsky, 2016; Poggio et al., 2017）。也就是说，如果模型类别中包含的某些假设（如分段线性转换的深度合成）被目标函数近似满足，则与不依赖该假设的方法相比，该模型可以实现很好的泛化。但是，近期的一篇论文（Zhang et al., 2017a）的实验表明成功的深度模型类别具备足够的容量来存储随机标签。该观察叫作「apparent paradox」，引起了研究者的广泛讨论。Dinh et al. (2017) 认为解释深度学习模型为何能够在大容量的情况下仍然实现较好的泛化效果是一个仍待研究的领域。

在本论文中，我们提出了对「apparent paradox」的一种解释。第三章从理论上证明了「apparent paradox」不仅存在于深度学习中，还存在于整个机器学习中。第四章中，我们认为应该重新思考泛化和学习理论，并通过重新思考得出了对深度学习中的泛化的一种新理解。第五章介绍了泛化界的改进，第六章介绍了对正则化的一种有用的理论见解。

3 重新思考机器学习中的泛化

Zhang et al. (2017a) 的实验表明多种深度模型类别能够存储随机标签，并且在特定的自然数据集（如 CIFAR-10）上的输出包含零训练误差和很小的测试误差。他们的实验还观察到在权重范数上的正则化似乎未必产生小的测试误差，这与传统观点并不一致。

命题 1 认为这些现象并不局限于深度学习和线性模型类别中：任何机器学习模型类别本质上都具备这些现象的核心特性。

命题 1 给定（未知）度量 P_(x,y) 和数据集 S_m，假设存在，在时，使。那么