五年磨一剑：李飞飞AI100报告第二弹，提出14大AI机遇与挑战_

【导读】时隔5年，由斯坦福大学教授李飞飞主导的「AI100」研究报告终于推出了第二期，对过去五年来人工智能领域最重要的14个大问题进行了回顾和分析。此外，该报告据称未来要一直做下去，直到100年。

「AI100」报告第二弹！

本次报告评估了2016年至2021年间人工智能的发展，涵盖14大问题，探讨了人工智能发展的关键领域。

主题是「人工智能在日常生活中的渗透影响：希望、关注和方向」。

报告研究团队由布朗大学计算机科学教授Michael L. Littman教授担任团队主席，来自学术界和行业研究实验室的17名成员组成，成员包括计算机科学、工程学、法律学、政治学、政策学、社会学和经济学学者。

与5年前的第一份报告明确侧重于AI在北美城市的影响相比，这次报告的重点是更深入地探讨AI对全球人类和社会的影响。

本报告具有两大特性：

专业性。报告由该领域核心多学科研究人员组成的研究小组编写——这些专家将创建人工智能算法或研究其对社会的影响作为他们的主要专业活动，并且已经这样做了很多年。作者牢牢扎根于人工智能领域，并提供「内部」视角。

长期性。这是一项长期的纵向研究，报告计划每五年发布一次，持续100年。2021年9月的这份报告是计划中的系列研究中的第二份报告，第一份报告于2016年9月1日发表后，在大众媒体上广为报道，并全球多项人工智能课程中被广泛使用。

本报告的受众主要有四类：

对于一般公众来说，它对人工智能现状及其潜力做出了无障碍、科学和技术准确的描述。

对于工业界来说，报告指出了相关技术和法律和道德上的挑战，可能有助于指导资源配置。

对地方、国家和国际政府来说，报告有助于更好地规划人工智能技术的综合治理。

最后，对于人工智能研究人员和研究机构而言，报告有助于确定研究的优先级，并考虑人工智能研究及其应用提出的经济、道德和法律问题。

问题1：每个问题后面的图片即代表该问题下影响力最大的技术进步

问题2：AI领域最重要的进展是什么？

这些图像是由OpenAI的「DALL-E」根据提示生成的「带有蓝色草莓图像的彩色玻璃窗」。

这表明该系统不仅仅是在检索相关的图像，而是在产生新的视觉特征组合。

基础技术

现在，用户会使用人工智能在手机上进行听写，获得购物、新闻或娱乐的推荐等。

这些进展背后的核心技术是机器学习，尤其是是深度学习，包括生成对抗网络和由大规模数据和计算资源驱动的强化学习。

GANs是一项重大突破，它赋予了深度网络产生以假乱真的内容的能力。

GANs由两个相互关联的部分组成：负责创建真实内容的生成器，以及负责将生成器的输出与自然发生的内容区分开来的辨别器。两者相互学习，随着时间的推移，在各自的任务上变得越来越好。

语言处理

近五年，语言处理技术在网络架构方面有着长足的发展，这也就增强了从复杂和上下文敏感的数据中学习的能力。

其中，神经网络语言模型ELMo、GPT、mT5和BERT，学习了单词在语境中的使用方式，包括语法、意义和关于世界的基本事实等要素，并由由数十亿个可调整的参数组成。

虽然在回答某些基准问题的表现已经超过人类，但是在更复杂多变的问题上仍然远低于人类的水平。

模型的语言能力已经在支持机器翻译、文本分类、语音识别、写作辅助工具和聊天机器人等应用。

然而，模型本身并没有表现出对它们所处理的文本的深入理解，这也就从根本上限制了它们在许多敏感应用中的效用。

计算机视觉和图像处理

模型的训练时间相比于之前已经大大减少，例如在ImageNet上完成工作的速度比三年前快100倍。

实时物体检测系统，如YOLO（You Only Look Once），在图像中出现时注意到重要的物体，被广泛用于人群的视频监控，对包括自动驾驶汽车在内的移动机器人非常重要。

在过去的五年里，人脸识别技术也有了很大的改进，现在一些智能手机，甚至办公大楼都依靠它来控制进出。

虽然面部识别技术可以成为提高效率和安全的有力工具，但它也引起了关于偏见和隐私的问题。YOLO的创建者也表示将不再参与：「军事应用和隐私问题变得无法忽视」。

GANs可以让用户无缝地用新的图像替换现有的图像，例如将某人插入他们没有参加的活动的视频中。

然而Deep Fake也在被用于身份盗用等行为，即生成一个不存在的人的资料并获得服务，这也刺激了对相关技术进行自动检测的研究。

游戏

2015年，DeepMind将深度网络应用于雅达利的游戏和围棋，帮助深度学习获得了广泛的公众关注，而在过去的五年中又取得了重大进展。

现在，人工智能代理已经在战斗和多人游戏中超越了人类，包括「星际争霸II」、「雷神之锤III」以及扑克等经典游戏。

开发AlphaGo的DeepMind团队继续创造了AlphaGoZero，它放弃了从过去的围棋比赛中收集大量数据，取而代之的是，从零开始自行开发棋步和战术。

机器人

过去的五年里，在机器学习、强大的计算和通信能力以及复杂的传感器系统可用性增加的推动下，智能机器人技术取得了持续的进展。

例如波士顿动力公司制造的最先进的仿人机器人Atlas展示了跳跃、奔跑、后空翻和操纵不平坦地形的能力，而这些能力在几年前对机器人来说是不可能的。

虽然在面向用户的视觉和语言技术中部署人工智能现在已经很普遍，但大多数类型的机器人系统仍然受限于实验室。

即便在现实世界中得到越来越多的应用，比如送货机器人，但它们仍然容易出错，尤其是在部署在未绘制地图或新的环境中时。

出行

自动驾驶汽车的设计需要整合一系列技术，包括传感器融合、人工智能规划和决策、车辆动力学预测、实时改道、车辆间通信等等。

驾驶员辅助系使用传感器和基于人工智能的分析来执行任务，如自适应巡航控制以安全地调整速度，以及车道保持协助以保持车辆在道路上的中心。

不过，五年前对完全自动驾驶的快速进展的乐观预测未能实现。

原因可能很复杂，比如在真实物理环境中需要做到更高的安全水平，这使得问题的解决比预期的更有挑战性，也更昂贵。

健康

近年来，基于人工智能的成像技术已经从学术追求转向商业项目。

已经有工具可以识别各种眼睛和皮肤疾病，检测癌症，并支持临床诊断所需的测量。

其中一些系统可与专家病理学家和放射科医生的诊断能力相媲美，并可帮助减轻繁琐的任务（例如，计算癌症组织中分裂的细胞数量）。

除了治疗支持外，人工智能现在还增强了其他一些健康业务和测量，如帮助预测手术持续时间以优化调度，以及识别有可能需要转移到重症监护的病人。

虽然目前的渗透率相对较低，但我们可以预期在未来看到人工智能在这一领域的应用扩大。

金融

深度学习模型现在为一些贷款机构部分地自动做出贷款决定，并通过信用评分改变了支付方式，例如微信支付。

这些新系统经常利用传统上不用于信用评分的消费者数据。在某些情况下，这种方法可以向新的人群开放信贷。

对于金融机构来说，人工智能的用途不仅仅是检测欺诈和加强网络安全，还包括自动处理法律和合规文件，以及检测洗钱。

此外，基于深度学习的系统可以监测签约基金经理的投资风格，使金融机构能够认识到原本看不见的风险，从而促进更健全和稳定的资产管理实践。

推荐系统

推荐系统普遍采用了深度神经网络，并对用户在产品、服务和内容的消费上产生了巨大的影响。

越来越多的人使用复杂的机器学习技术来分析推荐项目的内容，而不是只使用元数据和用户点击或消费行为。

包括Spotify对音乐的音频分析，或应用大型语言模型，如BERT来改善对新闻或社交媒体帖子的推荐。

另一个趋势是对多种不同的用户行为进行建模和预测，而不是一次只对一种活动进行推荐；使用所谓的多任务模型来促进这一功能。

然而这也引起了对公平性和多样性等问题的极大关注，例如，系统推荐的是和你一样的人正在阅读的新闻故事，而不是真正最重要的内容。

问题3：最令人激动的重大挑战问题都有哪些？

图灵测试

阿兰·图灵在 1950 年提出了他最初的挑战性问题。询问者通过书面问答交流的形式，区分女人和试图模仿女人的机器。

如果机器通过图灵测试在模仿女人方面能够做得和真人一样好，即通过测试。

今天，图灵测试的要求更高（而且性别歧视更少）：从模仿女人的单一主题，发展到与人进行日常交流对话，由于基于人类文本的对话，需要深入的句法、文化和上下文知识，因此机器会被误认为是人类。

多年来，人们一直在尝试改进测试的基本设计。

机器人世界杯

机器人足球世界杯 RoboCup 是人工智能领域的一项重大挑战，它以开发完全自主的机器人为目标，目的是打造能够击败FIFA世界杯冠军的机器人球队。

目前有超过 35 个国家参与了这项倡议，组织了一系列国际和地区比赛、座谈会、暑期赛事和其他活动。

尽管 RoboCup 的主要目标是培养一支表现超越人类的机器人，但还有一个目标是组建人机混合的冠军队伍。

这个目标强调的人机协作，促进共生的人机关系。虽然目前机器人足球比赛水平与现实世界的足球相去甚远，但已经取得了重大进步，比赛逐渐贴近更真正的人类比赛。

国际数学奥林匹克竞赛（IMO）

国际数学奥林匹克竞赛 (IMO) 是一项针对高中生的国际数学竞赛。挑战问题是建立一个可以在 IMO 中获得金牌的 AI 系统。

发起这项挑战的委员会为成功设定了精确的标准：AI 必须能够在与人类选手相当的时间内解出IMO的题目，并达到能够获得金牌的分数。

问题4：我们在理解人类智力的关键奥秘方面取得了多大进展？

在过去的五年里，人类智能研究的发展更多的是受到集体智能、认知神经科学和人工智能的启发，而不是认知心理学或心理测量学。

Facebook AI的研究人员表明，深度强化学习和类似于「心智理论」的搜索程序的结合可以在合作游戏中取得SOTA的性能。

集体智力

各个领域的研究都强化了这样一个观点：智力不仅是个人的属性，也是集体的属性。

研究界开始把思想看作是一个散布在成员中的集体实体。

我们的理解感受到了他人知识的影响，我们依靠他人的论据来构成我们的解释，而我们往往不知道自己正在这样做。

例如，我们可能认为自己了解一项政策的动机，但实际上我们依靠专家或互联网来阐述。

认知神经科学

认知神经科学的工作已经开始对与更传统的智力观点相关的各种高层次技能进行了富有成效的研究。

首先，认知神经科学的一个支柱是个人的属性，如工作记忆和执行控制是独立于领域的智力的核心，它支配着所有认知任务的表现，而不管其模式如何。

认知任务的表现，无论其模式或主题如何。

第二个得到支持的观点是，能力较高的人的特点是大脑连接模式更有效率。

这两种观点都与主流观点相一致，即智力与顶额叶皮层中更高层次的脑区有关。

第三个想法更激进，智力的神经相关因素分布在整个大脑中。

在这种观点中，人类智力的首要特征是灵活性，是不断更新先前知识和产生预测的能力，而智力来自于大脑动态地产生预测感官输入的推论的能力。

这种灵活性是通过大脑的可塑性实现的，其中改变的能力隐藏在神经连接中。

计算模型

几十年来，认知的计算模型一直在逻辑（符号推理）和模式识别（神经网络）之间循环往复。

计算模型领域现在充满了受深度学习启发的视觉识别、语言处理和其他认知活动的模型。

除了建立计算模型的努力，深度学习模型已经成为认知科学武器库中的核心方法论武器。

此外，在巨大的数据量上训练的巨大网络，如GPT-3和Grover，为语言和话语的研究开辟了多层次的新领域。

The State of the Art

意识的本质仍然是一个开放的问题。一些人看到了进步；另一些人认为，在理解如何建立一个有意识的智能体方面，并不比46年前更进一步，当时哲学家Thomas Nagel提出了一个著名的问题：「做一只蝙蝠是什么感觉？」

认知模型促使人们分析如何整合来自多种模式、多种感官和多种来源的信息：大脑、身体、实物和社会实体。

尽管现在有很多证据表明，正是这种整合的能力支持了人类更卓越的成就，但我们如何做到这一点在很大程度上仍然是神秘的。

与此相关的是，人们认识到支持意向性行动、共同意向性、自由意志和代理权的过程的重要性。但在建立这些过程的严格模型方面，几乎没有什么根本性的进展。

问题5：更通用的人工智能前景如何？

基于Transformer的自监督学习

在过去五年中，自监督学习取得了重大进展，朝着减少对大型人工标记训练集的依赖迈出了一步。

在自监督学习中，学习系统的输入可以是一个不完整的例子，系统的工作是正确地完成这个例子。

例如，给定部分句子「我真的很喜欢读你的……」，人们可能会预测最后一个词是「书」或「文章」，而不是「咖啡」或「自行车」。

自监督学习不需要明确的人工标签，因为输入数据本身就起到了训练反馈的作用。

持续和多任务学习

在过去的几年里，人工智能系统取得了重大进展，持续和多任务学习系统可以跨多个任务学习，解决了任务之间的存在重大干扰的普遍问题，在新任务上训练系统会导致其忘记如何执行它已经完成的任务。

这一领域的大部分进展都归功于元学习方法的进步。

让深度强化学习更加通用化

几十年来，围棋一直是AI 面临的重大挑战之一。2016 年，DeepMind 的程序 AlphaGo 战胜了这一挑战，击败了人类最优秀的围棋棋手之一的李世石。

虽然 AlphaGo 是AI历史上的里程碑，它仍然是个狭隘的胜利，因为经过训练的程序只能执行一个任务：下围棋。后期AlphaGo 的研究路线中大大减少了对人类对局示例的依赖。

在过去的几年里，许多研究已经让深度强化学习走向更加通用化。强化学习的一个关键部分是环境中奖励信号的定义。

AlphaGo的唯一的奖励信号是赢得棋局。然而，在现实世界中，一个更丰富的集合奖励信号可能是强化学习算法成功所必需的。这些奖励信号通常由人类程序员定义，并且基于特定的任务域。

而最近几年，强化学习被应用于基于更通用化的策略旨在执行多任务学习或持续学习，系统经过训练可以解决多个问题。

常识问题

目前的研究试图使 AI 系统通过多个任务，以没有任务间干扰的方式，利用自我监督或内在动机的方式学习。

目前需要进一步证明的是，这些方法可以扩展到更多样化和现实世界的复杂问题。

一个重要的缺失就是常识问题，常识的概念包括大量的无意识的对世界的了解，因果关系，感知情况之间的抽象相似之处的能力，即类比能力。

问题6：公众对人工智能的情绪如何演变，我们应如何告知/教育公众？

自2016年以来，「机器学习」的网络搜索量大约翻了一番。

公众对人工智能带来的社会和经济影响的前景表示担忧，诸如歧视性影响、经济不平等、劳动力替代或剥削等负面影响。

相比而言，公众对人工智能好处的认识偏向于健康和交通等领域的预期突破，而对已经被广泛使用的人工智能的现有好处的认识则相对不足。

目前的GAN仍然包括明显的视觉伪影，比如这张图片中奇怪地没有右肩。

尽管如此，以前无法达到的逼真程度引起了人们对使用这种技术传播逼真假信息的担忧。

问题7：为确保AI应用是负责任的，政府做了些什么？

随着人工智能日益成熟，其使用也越来越广泛，过去五年尤其如此。

其中面部识别等私人和政府应用也吸引了越来越多的公众关注。

政府对人工智能问题的关注增加，反映出人们认识到这一主题是复杂的，并与其他政策优先事项相互交叉，包括隐私、公平、人权、安全、经济以及国家和国际安全。

面部识别技术可以在照片中发现各种各样的人，并识别出他们的名字。将该技术用于大规模在线发布的图像集，可以在公共场合对陌生人进行识别。

这项技术引发了对AI侵犯隐私和信息安全的担忧。

问题8：在开发和部署人工智能技术以及研究人工智能的影响方面，学术界和工业界的作用应该是什么？

在大多数研究领域，以及历史上的人工智能领域，学术界和工业界的角色有相对明确的区分。

学术界更注重基础研究、教育和培训，而工业界更注重商业上可行的应用领域的应用研究和开发。

然而，在最近几年的人工智能领域，这种区别已经被削弱。

许多研究人员正在选择离开学术界，在工业界担任全职工作，这种转变的长期后果可能令人担忧。

企业对学术会议的参与一直在扩大。在像NeurIPS这样的旗舰会议上，将近三分之一的论文与全球500强企业关联。

问题9：当前AI最具前途的机遇是什么？

本节描述了 AI 研究的活跃领域和有望在近期产生有益影响的创新成果。主要关注两类机遇。

第一类是增强人类能力的AI。人类和AI具有互补的优势，比如在在医疗和医患协作方面发挥重要促进作用。

第二类别是关于可以实现自主运行AI软件。比如能够自动将手写文字自动转换为数据库中的结构化字段和文本的AI软件。

Transformer神经网络语言模型由在数十亿个单词上训练的数十亿个参数组成，可用于语法校正、创意写作和生成逼真的文本。

图中基于Transformer的 GPT-3模型为一个不可能存在的玩具生成了自然的产品描述。

问题10：AI最紧迫的危险是什么？

人工智能系统在现实世界的应用中越来越有效，导致过度使用和滥用的风险激增。

随着人工智能系统能力的提高，以及它们被更充分地整合到社会基础设施中，失去对它们有意义的控制的影响变得更加令人担忧。

一个特别明显的危险是，人工智能可以使人们更容易制造出可以进行间谍活动甚至大规模杀人的机器。但目前还有许多其他重要而微妙的危险。

GAN可以将低分辨率的人脸图像转化为高分辨率的人脸图像。而这样的转换不是在恢复缺失的信息，而是在混淆与输入一致的细节。

举例来说，PULSE系统倾向于生成具有白人特征的图像，正如美国前总统巴拉克-奥巴马的这张输入图像所见。

问题11：AI对社会经济关系造成的影响有哪些？

几千年来，技术变革的浪潮一直被视为经济的双刃剑。技术变革可以增加产出和财富，但同时可能会降低工资和工作机会。

罗马皇帝曾拒绝采用一种提高生产力的建筑技术。19世纪初，在英国也发生过摧毁纺织机械的“卢德运动”。专家警告说，新的技术浪潮可能会破坏美国的就业。

在AI领域。尽管一些人认为这是增加物质繁荣的关键，但也有人对AI可以低成本复制人类劳动的现状表示担忧，比如可能造成人工福利的下滑。

这些担忧有道理吗？答案很复杂，可以说有道理，同时也很难精确地说明白。

美国劳工统计局的数据显示，就在疫情之前，美国的就业人口比例达到了 20 年来的最高水平，这表明AI技术的增长尚未造成大规模失业。

问题12：从长远来看，「建立我们的思维方式」作为一种工程策略是否有效？

在人类心理学中，存在着自然与养育的问题。我们的行为有多少是由于我们的基因，有多少是由于我们的环境和教养？

人工智能解决方案是由人事先设计好的（自然），还是由机器从数据中学习的（培育）？

一个限制是摩尔定律的结束。

我们不能再像计算机时代开始以来那样，期望处理能力每两年翻一番。毕竟，现实世界中的每一个指数趋势最终都必须收敛。

对这种限制的一个反应是建立专门的硬件，优化以支持人工智能软件，例如谷歌的张量处理单元（TPU）。

另一个限制是模型大小。

2020年5月，GPT-3创造了一个记录，这是一个拥有1750亿个参数的神经网络语言模型，是之前最大的语言模型图灵NLG的十倍以上，而图灵NLG在三个月前刚刚推出。

OpenAI的一个团队计算出，自2012年以来，最大的人工智能训练运行中使用的计算量一直在呈指数增长，翻倍时间大约为三个半月。

即使摩尔定律继续下去，模型规模如此加速的增长速度也是无法支持的。

数据的可用性也阻碍了人工智能的进一步发展。

深度学习方法通常需要有几万、几十万、甚至几百万的例子的数据集。然而有很多问题我们没有这样大的数据集。

我们可能想建立模型来预测心肺移植的成功率，但可用于训练模型的数据有限--全世界已经进行的这类手术只有几百例。

而且像深度学习这样的机器学习方法很难在其训练分布之外的数据上工作。

最后一个限制则是语义。

人工智能方法往往是非常统计的，并且以与人类完全不同的方式「理解」世界。

谷歌翻译会很高兴地使用深度学习来逐字翻译「the keyboard is dead」和「the keyboard is alive」，而不会像你那样停下来思考为什么这个比喻对前者有效而对后者无效。

除了以上常设的12个问题以外，本次报告还加入了两个来自workshop的问题。

1. 在高风险的公共背景下，如何进行人工智能驱动的预测，决策者在实施和治理中必须考虑哪些社会、组织和实际因素？——「实践中的预测」

2. 在使用人工智能为有需要的人提供身体和情感关怀方面，最紧迫的挑战和重大机遇是什么？—— 「编码关怀」

参考资料：

https://ai100.stanford.edu/sites/g/files/sbiybj18871/files/media/file/AI100Report_MT_10.pdf由于这些面向社会的应用将影响人们与AI技术的关系，并具有深远的社会经济影响，因此报告中的主题就是「人工智能在日常生活中的渗透影响：希望、关注和方向」。