Facebook、MIT 等发表 449 页论文：解释深度学习实际工作原理的理论_

来自Facebook公司、普林斯顿大学和麻省理工学院的AI研究人员近日联合发表了一份新的手稿，他们声称该手稿提供了一个理论框架，首次描述了深度神经网络的实际工作原理。

Facebook的AI研究科学家Sho Yaida在一篇博文中特别指出，深度神经网络（DNN）是现代AI研究的关键要素之一。他表示，不过对于包括大多数AI研究人员在内的许多人来说，DNN也被认为太过复杂，无法从第一性原理（first principle）的角度来理解。

这是一个问题，因为尽管业界已通过实验和反复试验在AI方面取得了很大进展，但这意味着研究人员对DNN的许多关键特性一无所知，而这些特性恰恰使DNN极其有用。Yaida表示，如果研究人员对这些关键特性有更深入的了解，这可能会带来一些显著的进步，并开发出强大得多的AI模型。

Yaida 将现在的AI与工业革命初期的蒸汽机进行了比较。他表示，虽然蒸汽机永远改变了制造业，但直到随后的一个世纪热力学定律和统计力学原理才得到了发展，科学家们才能在理论层面充分解释蒸汽机是如何工作的以及为什么工作。

他表示，缺乏了解的这个问题并没有阻止蒸汽机有所改进，但做出的许多改进都是反复试验的结果。一旦科学家们发现了热机的原理，改进的步伐就快得多。

Yaida写道：“当科学家们终于掌握统计力学时，其影响远不止于制造更出色、更高效的热机。统计力学促使人们认识到物质是由原子构成的，预示着量子力学的发展，并且（如果您通盘考虑）甚至带来了支持您今天使用的计算机运行的晶体管。”

Yaida表示，AI目前正处于类似的关头，DNN被视为黑匣子，太过复杂，无法从第一性原理的角度来理解。因此，AI模型通过反复试验加以微调，类似人们改进蒸汽机的方式。

Yaida表示，当然，反复试验不一定是坏事，可以巧妙地进行，结合多年的经验。但反复试验只是描述DNN及其实际运作方式的统一理论语言的替代品。

这份手稿名为《深度学习理论原理：理解神经网络的一种有效理论方法》，试图填补这一知识空白。Yaida、麻省理工学院理论物理中心的助理研究员兼Salesforce的首席研究员Dan Roberts、Salesforce以及普林斯顿大学的Boris Hanin进行了合作，这是第一次真正尝试提供从第一性原理的角度来理解DNN的理论框架。

Yaida说：“对于AI从业者来说，这种理解可以大大减少训练这些DNN所需的反复试验次数。比如说，它可以揭示任何给定模型的最优超参数，无需进行如今所需的那种时间和计算密集型的实验。”

实际的理论不是一般人能看懂的，需要对物理学有相当深入的理解。Yaida表示，对于大多数人来说，重要的是它所具有的影响，使AI理论家能够推动对神经网络有更深入、更全面的理解。

他说：“还有很多的东西需要计算，但这项工作有望使这个领域更接近了解这些模型的哪些特定属性使它们能够智能地执行。”