历届图灵奖得主当中竟然只有三位在本科时主修计算机专业......

历届图灵奖得主当中竟然只有三位在本科时主修计算机专业......
2021年06月11日 18:51 AI科技评论aitechtalk
作者|刘冰一、陈大鑫

计算机科学是世界上发展最快的学科之一。作为数字革命的重要组成部分,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。

哪些人会对我们使用的计算机技术的设计和发展方向有重大影响?

我们能否找到一些规则或最佳做法来促进计算机科学的进一步发展?

这些问题促使人们从计算机科学本身之外进行研究,例如,从历史和科学社会学的角度。

而这时图灵奖就是一个很好的研究对象,图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止今年,图灵奖共授予了74名获奖者,他们为计算机领域做出的杰出贡献当值得世人永远致敬。

通过对图灵奖得主进行数据分析,我们想要知道哪些人会对计算机科学技术的设计和发展方向有重大影响?我们能否找到一些规则或最佳实践来促进计算机科学的进一步发展?我们能否预测未来的图灵奖得主?

AI 科技评论近日在arxiv上面发现了一篇与此相关研究的论文,作者来自罗彻斯特大学罗杰波教授团队,目前该论文已被 2021 International Conference on Social Computing, Behavioral-Cultural Modeling, & Prediction录用。

论文地址:https://arxiv.org/abs/2104.05636

在此之前,其实有很多关于诺贝尔奖得主群体的研究, 比如研究发现来自小型精英学院的本科生最有可能获得诺贝尔奖,在不控制家庭规模的情况下,杰出的科学家往往出生较早,而在较小的家庭中,较晚出生的人更有可能在科学领域取得杰出成就。

与诺贝尔奖相比,专注于图灵奖的工作是有限的。Akmut从一项社会学研究中得出结论,出生地、国籍、性别、社会背景、种族和网络在造就图灵奖得主方面起到了相关作用。一个名为 "图灵数"的指标被提出来,以衡量学者与图灵奖得主之间的距离,作为构建以获奖者为中心的科学合作网络的一种新方式。当图灵奖得主被用作研究和测试其他模型和指标的数据源时,他们也提供了良好的表现。另外为了了解科学创新的过程,Liu和Xu开发了一个用于显示这些计算机科学家的学术职业道路的链式模型。

总的来说,目前关于图灵奖的研究大多集中在一些特定方面,而要想从数据科学方面对获奖者进行全面分析,就需要首先构建一个全面的数据集,并分析其中经常出现的特征,为今后有关顶级计算机科学家的研究铺平道路。

本文研究收集了历年来(从开设直到2020年)74位图灵奖获得者的相关信息,包括对获奖者的家庭情况、学术背景、个人经历等进行了初步分析,希望对计算机科学领域的学科发展和培养方向提供参考。

作者在这项研究中做出了两项贡献:

首先,作者通过整合一些网络资源,构建了最新的数据集,其中包含了所有图灵奖得主(截至2020年)的各种数据。

其次,作者对图灵奖得主的特征进行了深入分析,并揭示了计算机科学领域推动工作的个人因素。

1

方法

数据资料准备

为了建立一个反映图灵奖得主经历和背景的数据集,作者选择了以下三个方面的特征: 个人信息、家庭背景和学术背景。

其中个人信息包括: 出生年份、性别、种族和公民身份。家庭背景包括: 子女人数、婚姻状况、父母背景、兄弟姐妹人数、出生顺序。学术背景包括: 最高学历、所在大学、专业、教育地点、学习领域、引文统计、博士生导师、大学关系等。

本文数据的主要来源是 ACM 图灵奖官方网站。在大多数获奖者的主页上,展示了他们的生日、教育历程、过去和现在的获奖情况,以及简短传记。其他遗漏的信息则通过手动的方式从获奖者的维基百科页面手动收集。

获奖者的学术背景从谷歌学术、Semantic Scholar和ACM Author Profile收集。

数据分析

为了挖掘到图灵奖得主的一般特征,作者使用了频繁模式增长(FP-Growth)算法。它采用了分治策略来挖掘频繁项集合,而不需要代价大的候选生成。在从整个数据集生成频繁特征树后,它再递归地生成和挖掘每个频繁特征树的频繁特征,这大大降低了特征挖掘的时间复杂性。

在本文的研究中,作者将每个获奖者的特征分组为一个项目集,并利用FP-Growth算法来提取这些特征。为了避免低支持度,作者选择了一些方差较小的特征,包括性别、国籍、种族、婚姻状况、出生顺序、最高教育水平、就读学校、学习年限、大学、专业、教育地点以及获奖时的身份(组群)。利用本文数据集的子集,产生获奖者的频繁特征。然后再对这些特征进行单独分析,对发现的有趣特征,都会相应地生成逻辑回归图、饼图和词云。

2

结果分析

图灵奖得主整体信息

截至2020年,图灵奖已经颁发了55次,共有74位获奖者。其中,17次为团队获奖(14次有两名获奖者,3次有三名获奖者)。单人获奖是最常见的,占总获奖人数的69%。

图1(a)显示了他们的获奖领域,其中31人在一个以上的领域获奖。人工智能、编程语言和密码学是频次最高的获奖领域,其次是计算复杂性和理论。上述领域中共有45位科学家获得了图灵奖。

图1 (a) : 图灵奖不同领域;(b) : 图灵奖获得者的年龄-年份关系。蓝线由逻辑回归拟合,阴影部分显示回归的 95% 置信区间。

年龄种族等信息

获奖者的年龄和获奖年份之间的关系如图1(b)所示。其中逻辑回归是通过最小化均方差 (MSE) 得到年龄与获奖年份之间的线性关系。

可以看出年龄和获奖年份是呈正相关的,也就是说 ,获奖者的平均获奖年龄随着时间的推移而增加 。所有获奖者获奖时的平均年龄是57.82岁。Donald Knuth获奖时最年轻(36岁),Alfred Aho获奖时最年长(79岁)。

就种族而言,如下图2所示,不难看出白人男性在图灵奖中占据主导地位。在74位获奖者中,有50位是白人,22位是犹太人。就性别而言,方差很大,只有3位女性获奖,其中第一位获得图灵奖的女性是Frances Elisabeth Allen,于该奖设立41年后之后的2006年获奖 。

图2 图灵奖获得者的种族和性别统计饼图

而从国家上来统计,美国显然是产出获奖者最多的国家,在74位图灵奖获得者中,有57位是美国公民,另外还有8位是英国公民,紧随其后的是以色列和加拿大,各有5名和6名获奖者。

家庭背景

作者提取了获奖者面试记录中提到的家庭信息,并根据词频生成了一个词云,如下图3所示。最常见的词是“teacher”、“school”、“worked”和“college”,这表明图灵奖获得者可能有良好的家庭条件,他们父母的职业大多与教育有关;

除此之外,所有获奖者都是异性恋者 ,并且至少结过一次婚。

图 3  涉及图灵奖获得者家庭背景时形成的文字云

出生顺序和个人成就之间的关系一直是一个有争议的话题。Thurstone和Jenkins研究表明,头胎和二胎的孩子有智商差异,Clark和Rice曾表明出生顺序对获诺贝尔奖有影响。

图灵奖获奖者的出生顺序信息如下图4所示,可以看出如果获奖者只有一个兄弟姐妹,那么TA更有可能是年轻的那个;如果获奖者有一个以上的兄弟姐妹,那么TA最有可能是最年长的那个。本文的结论与Clark和Rice对诺贝尔奖的研究一致。

图 4   图灵奖得主的出生顺序

学术背

图5显示了获奖者获得的最高学位和他们的专业,在74位图灵奖得主中有63位获得博士学位,5位获得硕士学位,6位获得学士学位。至于专业,大约三分之一的图灵奖得主在高等教育期间主修数学

图5教育背景

获奖者的本科专业和研究生专业如图6所示。令人惊讶的是,只有三个获奖者在本科时主修计算机科学,且他们都是双专业。这可以用计算机科学是一个相对较新的专业来解释:世界上第一个计算机科学文凭,始于1953年剑桥大学计算机实验室。而美国第一个计算机科学系于1962年才在普渡大学成立。超过一半的科学家在本科学习期间研究数学,当读研阶段,计算机科学才成为最受欢迎的专业,但继续学习数学的仍然占据相当大比重。

图6 词云显示的图灵得主的主要分布: (a)本科专业,(b)研究生专业。词云中的词越大,表示占比越高。

接着继续探讨获奖者获得学位的地点。美国仍然是最主要的国家,56名图灵奖获奖者在美国学习。本文在表1中显示了图灵奖得主毕业的前12所大学(按人数排名)。获奖者在本科阶段学习的最多的大学包括:加州大学伯克利分校、剑桥大学、哈佛大学、卡内基梅隆大学。

加州大学伯克利分校是本科阶段拥有最多的图灵奖得主的学校。获奖者在研究生阶段学习的最多的大学包括:普林斯顿大学、加州大学伯克利分校、哈佛大学。

另外斯坦福大学吸引了最多的图灵奖得主在那里任教,人数为23人,但在这些图灵奖获得者中只有两名的本科学历和六名的研究生学历来自于斯坦福大学。

表 1  各大学图灵奖获得者人数

引用指标

引用通常是评价学者学术影响力的一种方式。截止到2020年11月30日,作者收集了获奖者的引文信息,包括被引用次数最多的论文,前5篇论文引用次数之和,以及总引用次数(2020年的获奖者数据是在2021年4月1日获得的)。由于不同的数据库有不同的引文标准,本文使用Semantic Scholar、Google Scholar和ACM Author Profile作为参考。为了使结果更加直观,我们对引文进行排序,结果见下图 7。

不管是哪种资源,所有的引用标准都显示出类似的指数分布。其中只有少数几个引用次数非常高,而且它们都属于人工智能领域。本文比较了Guide2 Research给所有计算机科学学者中图灵奖获得者的排名,只有5位图灵奖获得者被列入前100名计算机科学家。结果表明,一个人可能不需要一个非常高的引用来赢得图灵奖。值得注意的是,74位获奖者中有21位具有如图8所示的导师-学生关系。

图7:ACM Author Profile ,Semantic Scholar ,和 Google Scholar的引用排序。(a) ACM Author Profile;(b) Semantic Scholar;(c) Google Scholar.

图8.存在师生关系的网络

3

总结与未来工作

在本研究中,作者建立了图灵奖获奖者的全面数据集,包括他们的个人信息、家庭背景和学术背景。然后,我们研究了这些图灵奖得主个人背景的潜在特征。结果显示,大多数获得图灵奖的科学家具有以下特征:白人,男性,已婚,美国公民,拥有博士学位。

其中有四个特别有趣的现象:

图灵奖获奖者的年龄逐年增加;

大多数获奖者都没有主修计算机专业;

家庭中的出生顺序与获奖者的成功密切相关;

引用数并不像人们预期的那样重要。

研究者未来考虑的三个研究方向:

1、收集更全面的图灵奖得主社会网络数据,包括他们的合作者,并应用图挖掘技术发掘获奖者的社会网络;

2、统计计算机科学不同领域的平均引文,并将每个领域的引文数据规范化;

3、将未获得图灵奖的顶尖计算机科学家纳入本文的数据集,利用机器学习算法来预测未来的图灵奖得主。

财经自媒体联盟

新浪首页 语音播报 相关新闻 返回顶部