人工智能寒冬中的守夜人——从学术弃子到图灵宗师(9k字)

人工智能寒冬中的守夜人——从学术弃子到图灵宗师(9k字)
2021年05月06日 17:20 科技修炼册

秦农序

前期“科学Sciences”介绍了密歇根大学学士,麻省理工学院(MIT)博士、美国数学家、电子工程师和密码学家,被誉为信息论创始人、数字计算机理论和数字电路设计理论的创始人,天才人物克劳德·艾尔伍德·香农(Claude Elwood Shannon, 1916.4.30-2001.2.24)的12条从工作到生活中可借鉴的经验《克劳德·香农10000小时访谈:天才如何思考、工作和生活——五年写书学到12条教训》,和他众多发明创造中的典型《“忒修斯Theusus”早期机器学习演示——克劳德·香农1950年的模仿游戏》。本期“科学Sciences”介绍硅谷李虎《AI寒冬中的守夜人——从学术弃子到图灵宗师》,阐释深度神经网络的诞生、被学界业界鄙视、到一战成名捧得图灵奖的人工智能技术历程。欢迎继续阅读秦陇纪《神经网络之父Geoffrey Hinton杰弗里·欣顿跨过人工智能寒冬谈深度学习》,包括辛顿(Hinton)简历及其个人主页推荐的30篇深度学习论文列表。以期帮助科学爱好者和工作者,能从思维方法上接近科学技术殿堂。

AI寒冬中的守夜人——从学术弃子到图灵宗师

文|原创:硅谷李虎,源|少年硅谷梦,科学Sciences©201910-29Tue

2004年冬天的多伦多,天空飘着大雪,寒风刺骨。比天气更冷的,是正在肆虐的第二次AI寒冬,对于辛顿(Hinton)来说,这已经是他多伦多大学度过的第十七个冬天了。

还记得十七年前,人工智能两大学派正式决裂,“仿生学派”与”理性学派”决战华山之巅,结果仿生学派兵败如山倒,从此再也得不到美国政府和产业界的任何经费资助,几乎所有仿生学派的教授学者都纷纷坚持不住,退出了江湖。

几乎所有的人,除了辛顿。

1987年,在确认了所有美国的科研院校都不再资助神经网络类型的人工智能研究后,辛顿义无反顾地来到了加拿大多伦多大学,只因为这里依然可以资助他所坚信的研究方向。

然而好景不长,本以为来到“世外桃源”就可以安心研究,可这场学术之争终究烧到了加拿大,自九十年代中期后,加拿大政府也不再资助神经网络的研究了,与此同时,更为惨淡的是,就连华山论剑中的胜者也地位不保;人们发现理性主义阵营的代表之作“专家系统”也被发现根本没有学习新知识的能力,至多算的是个知识稍微丰富一点的“死字典”。

曾经,在八十年代早中期,人们对人工智能曾经给予了厚望,日本甚至将人工智能列为首要的国家发展战略,狂热之后,便是一地鸡毛。在投入了超过了数十亿美元却毫无进展之后,心寒的人们选择不再相信,紧接着便是八十年代晚期到两千年世代早期的第二次AI寒冬。

在多伦多和AI最凛冽的寒风中,在理性主义者的“异端歧视”下,在整个社会都失去信心的时光中,辛顿没有放弃,相反,一个大胆而宏伟的计划却在他的脑海中形成了。

一个可以让仿生学派浴火重生的计划。

一个可以让人工智能重回历史浪潮的科技革命。

一个可以改变人类命运的伟大变革。

“就差这么一个机会了。”

AI寒冬里的守夜人,深度学习革命的奠基人

想发动一场成功的科技革命,就像发动任何一场成功的革命一样,仅仅有坚定的信仰还是不够的,还需要盟友,钱,还得拉的起一支打仗过硬的队伍。

辛顿依然有一个强大的盟友,加拿大政府。

2004年,在辛顿的推动下,加拿大政府重启了尘封多年的神秘学术组织CIFAR(CanadianInstitute for Advanced Research)。

在CIFAR的资助一下,辛顿终于拿到了一小笔可以用于计算神经学研究的经费了。有了钱,终于可以招兵买马,养博士博后,买设备攒数据,专心研究了。

然而理性主义流派的狙击,也才刚刚开始。

还记得曾经感知机,那个单层的,线性的,不可训练的神经网络雏形吗?经过一代仿生人不懈的发展,配合非线性激活函数,多层堆叠,以及辛顿发展出的反向传播训练技术,两千年初期的神经网络已经解决单层限制,线性限制,和不可训练这三大瓶颈。

然而新的瓶颈也一点不客气滴横在仿生学派者的面前:多层的神经网络难以训练,层数越深的神经网络就越是难以训练。

想重振神经网络,就必须解决深度神经网络的训练问题。

然而在理性主义者看来,这根本就是一个不可能解决的问题:反向传播的数学本质就是微积分中的链式法则,而层数越是加深就越是会出现梯度消失和梯度爆炸的问题。

理性主义者狠狠地抓住这个弱点不放,在2004至2006年,关于神经网络的论文统统遭到了人工智能顶级期刊ICML的拒绝。

“克服深度神经网络不可训练这一错误信念,在人工智能发展的历史上是至关重要的。我们之前给ICML呈送了一篇论文,结果同行把这篇论文拒收了,只是因为这是关于神经网络的。事实上,如果你观察去年的ICML期刊,一篇在标题有“神经网络”的论文都没有,所以ICML不受任何与神经网络有关的论文。” 辛顿在一次授课中说道。

面对神经网络自身巨大不足和理性主义者的极限打压下,辛顿没有自我怀疑。他想到的,是他的初心。这位1947年出生的教授,自少年时代想知道大脑是怎么工作的,然而学生时代学习的生理学和心理学却都不能解答自己心中的疑问,于是人工智能,成了他毕生的追求。

作为一个仿生学派者,他坚信智能是从类似人脑一样的大型神经网络/复杂联结中孕育而生的。然而,他的博士生导师Higgins却是一个坚定的理性主义者,认为智能应该从严密的形式逻辑和符号系统中推导而生。遗憾的是,那时候还处于萌芽期的仿生学派,其主力模型感知机(perceptron)是一种单层的,线性的,不可训练的神经网络雏形。

理性主义巨擘,麻省理工人工智能实验室创始人马文·明斯基(Marvin Minsky),敏捷地抓住了感知机的漏洞和不足,指出感知机模型连最基本的非线性函数,异或函数(XOR function)都无法拟合,于是曾经遥遥领先的仿生学派学派兵败如山倒,而理性主义者又适时地推出了专家系统(Expert System)这一“得意之作”占领学术界和工业界的制高点,这才有了开始的那一幕,学术弃子辛顿败走枫叶之城。

然而辛顿没有放弃,英雄之所以是英雄,就是因为他们是为这样的时刻而生!

伟大的品牌重塑:深度神经网络 + 机器学习 = 深度学习

打铁还需自身硬,先解决神经网络自身的不足。

既然多层深度神经网络难以训练,为什么一定要全网络端到端训练,而不是先进行逐层预训练呢?

聪明的辛顿先将每一层的神经网络初始化为限制级玻尔兹曼机进行预训练,在每层都初始化后再进行最终的端到端训练,虽然在我们2019年的的大数据,大算力时代这看起来十分原始青涩,却是那个时代(2004~2006)最好的方案了。

然而理性主义者偏见犹存,论文屡屡被拒。

就在这最黑暗的时候,革命家辛顿又出手了。

2006年,以辛顿为第一作者,深度学习革命的开篇之作,“A Fast Learning Algorithm for Deep Belief Nets”横空出世,经过仿生派学者几十年的苦心打磨,他们终于能够推出一版可训练,可学习的“深度”神经网络。为了昭示这样的神经网络和历史上浅层的或难以训练的神经网络的不同,仿生学派者们取了“深度神经网络”的“深度”和“机器学习”的“学习”,创造出了“深度学习”之新品牌,成为了仿生学派最新的主力模型。

就在仿生学派者弹冠相庆,庆祝自家学派终于取得了巨大的历史性突破时,理性主义者却不以为意,与最新崛起的统计学习流派结盟,大力发展以SVM(SupportVector Machine)为代表的Kernel Method. SVM天生就有简单优雅的数学表示和深厚的数学基础,天生就对把逻辑和推理视作生命的理性主义学派有着致命的吸引力。与此相反,乱糟糟的,东拼西凑的,没有数学基础的深度学习,在理性主义者看来,就像弗兰肯斯坦生物实验室里的一头狰狞怪兽,不仅毫无美感,也不可能指向真正的强人工智能。

于是乎,虽然仿生学派的深度学习开始展露头脚,可理性主义者联合统计学家的SVM却也出手不凡,在很多技术指标上都超过了深度学习算法。

理性主义者依旧不把仿生学派者放在眼里,这场百年的恩恩怨怨,似乎还没有结束。

这是一场深度学习与SVM之间的巅峰对决,作为仿生派与理性派最先进,最前沿的当家模型,谁能取得胜利,谁就能赢得AI武林的下一个二十年!

面对理性派的藐视,辛顿没有说话,他挥了挥衣袖,仿生派大军压境。

“屠榜”。

屠榜

马上就要进行最后的战略决战,辛顿瞄准了机器学习感知最核心的两个任务,语音识别和图像分类。

辛顿找来了自己的博后LeCun负责图像,而自己的在ATBengio来搞自然语言处理。

就在两派在为最后的决战做着准备的时候,“数据女工” 李飞飞也在加紧建设她的图像数据库ImageNet,为两派的最后一战搭好擂台。

为了备战,辛顿对深度学习进行的大刀阔斧的改革。

他瞄准了备受对手诟病的梯度消失和梯度爆炸问题。

可训练性是机器学习模型的生命之魂,曾经的感知机便是摔倒于此,如今的深度学习绝不能重蹈覆辙。

辛顿发现,是神经网络层与层之间的非线性联结函数Sigmoid出了问题,在联结函数的选择上,仿生派似乎理性派附体,太过注重联结函数的连续,可微,和光滑属性,然而这样的“好”的数学性质却会在多层的非线性嵌套下“失去光泽”,长尾的sigmoid在连续微分下只能是爆炸或消失的命运。

Sigmoid中看不中用。

一番思考后,辛顿选择了ReLU函数作为新的非线性联结函数,一个连续,零点不可导,零点不光滑的“丑陋”函数。

理性主义者笑掉了大牙,狰狞怪兽上唯一好看的花纹也被辛顿画成了小丑。

可他们很快就笑不出来了,辛顿的选择不无道理,ReLU的导数恰好是Step函数,非0即1,0代表神经元睡眠,1代表神经元激活,不拖泥带水,就是这么简单粗暴。

稍稍加强了己方的弱点,还没歇两口气,他们就很快就遇到了新的问题。算力不足。

语音识别和图像分类可不比曾经的数字识别之类的简单小任务,数据量呈数量级的增长,传统的CPU训练硬件早已难以为继,长达数月的模型训练周期空耗着研究者的青春,革命面临着粮草不足的窘境。

好比渴望称霸宇宙的灭霸需要集齐六颗无限宝石,已经拥有深度学习算法之灵魂宝石的辛顿也需要超强算力,这颗力量宝石,才能问鼎人工智能的王者巅峰。

一位辛顿的学生发现,与其用CPU,我们其实可以用高性能GPU显卡进行并行计算从而高效地训练深度学习模型。

100倍的提升,两个数量级!曾经三个月才能训练好的模型如今只需一天就可出炉了。

显卡大厂Nvidia也抓住了这个历史机遇,推出CUDA扩展包,每年都迭代升级GPU,从而保证了深度学习的强大算力。

力量宝石,就此开启。

随着算法的优化和算力的提升,辛顿和仿生学派者们发现,其实曾经的神经网络逐层预训练其实没有必要。

只要数据集足够大,采用优化后的非线性优化函数ReLU,以及强大的算力加持,全网络端到端的深度学习就能爆发出神经网络的最大潜能。

从此集齐灵魂宝石算法,力量宝石算力,和大数据现实宝石的辛顿,正式奠基了现代意义上的深度学习。

灵魂宝石算法 + 力量宝石算力 + 现实宝石数据 = 深度学习

2009年的时候,深度学习就在语音识别的任务上表现出了战平甚至超越传统算法的表现。而在此后,递归神经网络,长短期记忆神经网络等神经网络变种长期霸占榜单第一,也成了工业界的标配。

真正的拐点是2012年。

作为唯一一个仿生学派的参赛团队,辛顿团队在ImageNet图像识别任务以正确率84.6%(Top 5 Acurracy)荣获了第一名的好成绩,而第二名仅仅为73.8%。此后卷积神经网络一骑绝尘,一直霸榜至今,准确率也达到了98%(2019年,Top 5 Accuracy)甚至超过了人类的平均水平。

学术界高潮了。

人工智能界太久没有见过这么巨大的突破了,大批学者和学生大批涌入,产业界的巨额投入,风靡全球的科技浪潮,以及各国政府的宏观政策和国家战略,等等等等,最初的滥觞,都源于有这么一个人,在多伦多最冷的冬天,依然有着一份对神经网络火一般的执着!

一部40年的神经网络发展史。

一部仿生学派与理性学派相爱相杀60年的华丽史诗。

一部人工智能与科技革命的百年浪潮。

到了今天,终于来到他生命中的高光时刻。

“如果你有一个创意你觉得肯定是对的,就不用让别人来告诉你是傻的。忽略他们就好了。”

—— Geoffrey E. 辛顿,深度学习之父,2018年图灵奖得主

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部