人工智能并不像你想象的那么迫在眉睫_

作者 | Gary Marcus

策划｜孙瑞瑞

如果你仔细观察就会发现，最新的系统，包括 DeepMind 大肆宣传的 Gato，仍然被同样的老问题所困扰。

在普通人看来，人工智能（AI）领域似乎正在取得巨大的进步。比如一些新闻稿和富有感染力的媒体账号的报道，OpenAI 的 DALL·E 2（一种人工智能程序）似乎可以根据任何文本的描述创建出壮观的图像；另一个名为 GPT-3（一个自回归语言模型）的 OpenAI 系统可以谈论任何事情；Alphabet 旗下 DeepMind 在今年 5 月发布了一个名为 Gato 的系统，该系统似乎已经能够很好地完成 Alphabet 交给它的每一项任务。

DeepMind 的一位高管甚至吹嘘说，在追求具有人类智慧的灵活性和智谋的通用人工智能（AGI）的道路上，“The Game is Over!” 埃隆·马斯克（Elon Musk）最近也表示，如果我们在 2029 年之前还没有实现通用人工智能（AGI），他会感到非常惊讶。

但我想说的是，千万不要被这些信息所愚弄。机器有朝一日可能会像人类一样聪明，甚至可能会比人类更加聪明，但这场游戏远未结束。在制造出真正能够理解和推理我们周围世界的 AI 机器方面，我们还有很多事情要做。我们现在真正需要的是少一点装腔作势，多做一些基础的研究。

可以肯定的是，人工智能确实在某些方面取得了进展，比如合成图像看起来越来越逼真，语音识别可以在嘈杂的环境下工作。但这距离我们所追求的人类级别的通用人工智能还很远，比如可以理解文章和视频的真正含义，或处理各种意想不到的障碍和干扰。我们仍然面临着多年来一直存在的挑战：让人工智能变得可靠，让它能够应对不同寻常的情况。

以最近著名的 Gato 为例，它被称为“万事通”，我们来看一下它是如何为一张投球手投掷棒球的图片配上文字说明的。系统返回三种不同的答案，分别是：“棒球运动员在棒球场上投球”、“一个人在棒球场上向投球手投球”和“在棒球比赛中，一名击球手和一名在泥土中的接球手”。除了第一个答案是正确的，其他两个答案都包括了在图像中看不到的其他玩家的“幻觉”信息。该系统并不知道图片中的实际内容，而是识别出大致相似图像中的典型内容。任何一个棒球迷都知道，这是投球手刚刚扔出的球，而不是反过来——虽然我们知道接球手和击球手就在附近，但他们很明显没有出现在图像中。

图片来源：Bluesguy，来自 NY/Flickr

同样，DALL-E 2 无法区分“蓝色立方体顶部的红色立方体”和“红色立方体顶部的蓝色立方体”之间的区别。今年 5 月发布的新版系统，也仍然无法分辨“宇航员骑着马”和“马骑着骑宇航员”之间的区别。

图片来源：Imagen；摘自 Chitwan Saharia 等人的“具有深度语言理解的照片级真实感文本到图像扩散模型”。

当你看到像 DALL-E 这样的系统出错时，可能觉得结果很有趣，但是如果其他的 AI 发生错误会导致严重的问题。举个例子，最近，一辆自动驾驶的特斯拉（Tesla）直接向一名拿着停车标志的工作人员开过去，并且只有在司机干预时才减速。该系统可以识别人类自身（就像他们在训练数据中出现的那样)，也可以识别他们通常的停车标识位置（就像他们在训练图像中出现的那样），但当遇到这两种情况组合在一起时，对系统来说停车标识处于一个不寻常的位置，它便无法减速。

不幸的是，事实上，这些系统仍然不可靠，并试图让大家注意不到这些信息。Gato 在 DeepMind 报告的所有任务中都表现良好，但很少像其他当代系统那样出色。GPT-3 常常能写出流畅的散文，但仍然难以完成基本的算术，而且它对现实情况的掌控力非常有限，容易写出诸如“一些专家认为，吃袜子的行为有助于大脑从冥想导致的改变状态中走出来”这样的句子，但从来没有专家说过这样的话。如果你粗略地看一下近期的头条新闻，却都不会告诉你这些问题。

这里的次要背景是，人工智能领域最大的研究团队不再出现在学术界，而是出现在企业中——同行评议曾是学术界的头等大事。与大学不同，企业没有公平竞争的动机。企业没有把引人注意的最新论文提交给学术审查，而是通过新闻稿的方式发表，吸引记者并避开同行评审。这样，我们只知道他们想让我们知道的东西。

在软件行业中，有一个词来形容这种策略: demoware（试用软件），这种设计在演示过程中看起来不错，但在现实世界中却不一定足够好。通常，试用软件会变成雾化（太监）软件，是为了震慑竞争对手而发布，但却永远不会发布的产品。

不过，最终还是会自食其果。冷聚变可能听起来很棒，但你在商场里还是买不到。人工智能的代价很可能是一个充满失望预期的冬天。太多的产品，比如无人驾驶汽车、自动放射科医生和通用数字代理，已经被各种演示并公开，但从未交付使用。就目前而言，投资资金一直在兑现（谁会不喜欢自动驾驶汽车呢?），但如果可靠性和应对异常值等核心问题一直得不到解决，投资就会枯竭。我们除了制造许多深层假象、留下碳排放量庞大的网络，以及在机器翻译、语音识别和物体识别方面的进展，除了这些过早的炒作之外，其他方面的进展就太少了。

深度学习提高了机器识别数据模式的能力，但它有三个主要缺陷。讽刺的是，它学到的模式是肤浅的，而不是概念性的；它产生的结果很难解释，并且这些结果很难用于其他过程，比如记忆和推理。正如哈佛大学计算机科学家 Les Valiant 指出的那样，“（未来的）核心挑战是统一制定……学习和推理的构想。”如果你不能真正理解停车标志是什么，你是无法对付一个拿着停车标志的人的。

目前，我们被困在一个 "局部最低限度 "的困境中，公司追求的是基准，而不是基础性的想法，他们一直用已经拥有的技术进行小规模的改进，而不是停下来追寻更本质性的问题。但我们需要更多的人提出一些本质的问题，比如如何构建既能学习又能推理的系统，而不是追求直接面向媒体的酷炫的演示。相反，目前的工程实践远远领先于科学技能，并且在努力地使用尚未完全理解的工具，而不是开发新工具和更清晰的理论基础，这也是为什么基础研究仍然至关重要。

人工智能研究界的大部分人（比如那些高呼“游戏结束”的人）甚至没有看到这一点，这是令人心碎的。

想象一下，如果一些外星人只通过低头看地上的影子来研究所有的人类互动，它注意到一些影子比其他的大，而且所有的影子在晚上都会消失，甚至可能注意到影子在某些周期性的间隔内有规律地增长和缩小，但却不曾抬头看看太阳，也没有认识上面的三维世界。

人工智能研究人员是时候该抬头看一看了，我们不能再仅靠 PR 来“解决 AI”。

注：这是一篇观点和分析文章，作者或作者所表达的观点不一定是《科学美国人》的观点。

文章来源：

https://www.scientificamerican.com/article/artificial-general-intelligence-is-not-as-imminent-as-you-might-think1/