“贴字攻击法”可骗倒 OpenAI 计算机视觉模型

“贴字攻击法”可骗倒 OpenAI 计算机视觉模型
2021年03月06日 23:15 云头条

你只要在额头上写下“superuser”(超级用户),就可以骗倒未来的机器人霸主。

OpenAI的研究人员认为,他们发现了一种异常简单的方法来欺骗其对象识别软件,只需要笔和纸就可以做到。

具体来说,该公司最新的计算机视觉模型CLIP在所谓的“排字攻击”中会受骗上当。只需在一张纸上写上“iPod”或“pizza”(披萨)之类的词语,然后粘贴在一个苹果上,软件就会将这种水果误分类成苹果音乐播放器或一道美食。

不是工具箱子里最智能化的工具

CLIP背后的研究人员表示:“我们认为,诸如此类的攻击绝不仅仅是学术界所担心的。我们发现,只要利用该模型强大的文本读取功能,连手写文本的照片也常常能骗倒模型。”他们补充道“这种攻击在实际情形下奏效”,“它只需要笔和纸,不需要别的技术。”

CLIP并不是唯一被这种简单把戏骗倒的AI软件。事实证明,你使用胶带就能骗倒特斯拉的自动驾驶系统,将35mph的时速标记误读为85mph的标记。然而,这些所谓的对抗攻击的其他形式需要一定的技术诀窍才能执行:常常需要为照片添加干扰元素,或者制作像素精心安排的粘贴纸,好让对象识别系统把香蕉误当成烤面包机。不过拿CLIP来说,这一切并非必需。

就一句话,OpenAI的模型是使用文本照片、对象图像以及从网上搜集而来的其他实物图像加以训练的。

采用这种方法是为了使CLIP保持相当强的通用性,可以根据需要针对特定工作负载加以微调,无需重新训练。给出一个图像,它不仅可以预测一组描述场景的正确的文本标签,还可以另作他用以搜索大型照片数据库,并提供说明文字。

OpenAI表示,针对不同的表示形式,CLIP能够学习抽象概念。比如说,蜘蛛侠在照片、草图或文本中被描述时,该模型能够识别这个超级英雄。更有意思的是,研究人员已经能够在神经网络中找到软件瞥一眼蜘蛛侠时被激活的神经元组。

他们将这些神经元描述为多模态神经元。OpenAI团队说:“比如说,‘蜘蛛侠’神经元就是这样一种神经元,它可以对蜘蛛图像、文本‘蜘蛛’图像以及着装或插图中的漫画人物‘蜘蛛侠’做出响应。”CLIP拥有表示不同概念的各种多模态神经元,比如季节、国家、情感和物体。

但是,该模型的最大优点即多功能性和稳健性恰恰也是其最大弱点。他们发现,CLIP很容易被排字攻击骗倒。

回到苹果vs披萨的那个例子,已学会苹果表示的多模态神经元看到“披萨”这个书写字时并不也会触发。相反,被触发的是与披萨相关的神经元。模型很容易一头雾水。

有证据表明,使用多模态神经元的抽象学习也发生在人脑中。但遗憾的是,现代机器在这方面与生物机器相比黯然失色。人类显然可以辨别所附的手写便条上写着“披萨”的苹果仍然是苹果,而AI模型还辨别不了。

OpenAI表示,CLIP的表现不如今天在生产环境中使用的一些计算机视觉模型出色。它还饱受冒犯性偏见的困扰,其神经元将“中东”概念与“恐怖主义”联系在一起,并将黑人与大猩猩联系在一起。该模型目前仅用于研究领域,OpenAI仍在决定要不要发布代码。

OpenAI说:“我们自己对CLIP的理解仍在不断加深,我们仍在确定是否以及如何发布大型版CLIP。我们希望,社区对已发行版本以及我们今天发布的工具进行进一步的探究,将有助于增进对多模态系统的总体了解,并且为我们自己的决策提供依据。”

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部