ImageNet训练的AI竟然人妖不分,网友炸了!

ImageNet训练的AI竟然人妖不分,网友炸了!
2019年09月17日 13:06 新智元

来源:theverge等

编辑:小芹、鹏飞

【新智元导读】基于ImageNet “人物”类别训练的AI工具“ImageNet Roulette”近日引起热议,上传人脸照片,AI马上返回描述这个人的标签。但这些标签充满了怪异、刻薄和种族主义,揭露了数据集的缺陷和暗藏的偏见。

你有没有想过,当你使用人脸识别检测自己的脸时,AI是怎么看你的?

一个最近出现的网站“ImageNet Roulette”可以告诉你,但事先警告:现实并不美好,AI对你的评价有时甚至很残酷。

“ImageNet Roulette”是一个由程序员Leif Ryge,纽约大学教授、AI Now研究所共同创始人Kate Crawford,以及艺术家Trevor Paglen最近为一个名为“训练人类”(Training Humans)的艺术展创建的网站。只需上传一张人像照片,该工具会运行一些常见的机器学习软件,然后返回决定适用于你的标签。

许多人在使用这个工具时发现,AI返回的标签经常很怪异、刻薄,充满着种族主义和对女性的嫌恶。发布一段时间以来,这个AI已经在Twitter上引发大量声讨。

比如这位网友,明明只是抱着狗窝在沙发上,却被AI识别成一个“啤酒爱好者”

这位女性只因一头红发和自拍的角度,就被认为是一名:女王、狐狸精、女妖、让男人沉迷的魔女。

而这位明显不是黑人的男性,被打上“Black Person, Negro”等标签……

它叫我“书呆子、笨蛋”!这个AI是想打架吗?

“ImageNet Roulette”是在ImageNet数据集的“人物”类别上训练的。ImageNet 是计算机视觉领域最著名的数据集,由超过 1400 万个标记图像组成,分为20000多个类别,每个类别平均有 1,000 张图像。ImageNet也是世界上被引用次数最多的对象识别数据集,在研究论文中被引用了超过 12000 次。

ImageNet 的“人物” 类别下包含 2833 个子类别。具有最多相关图片的子类别是 “gal(女孩)”(1664 个图像),其次是 “祖父”(1662),“爸爸”(1643),和 “首席执行官”(1614)。

ImageNet 还将人们分为多种类型,包括种族,国籍,职业,经济地位,行为,品格,甚至道德。

ImageNet Roulette 使用开源 Caffe 深度学习框架,当用户上传图片时,应用程序首先运行人脸检测器以定位人脸。如果发现了人脸,则将它们发送到 Caffe 模型进行分类。然后,应用程序返回原始图像,边界框显示检测到的人脸,以及分类器为图像指定的标签。

“AI如何给人分类”这件事,“被分类”的人很少能知道。ImageNet Roulette提供了这个过程的一瞥,并显示了AI可能出现的问题。

三位研究人员用他们自己的照片进行了测试:

Crawford和Paglen

艺术家Paglen的形象被归类为 “Klansman”(注:3K 党,美国最臭名昭著的极端种族主义团体之一,制造了很多血腥恐怖事件);

纽约大学教授 Crawford 的大头照被归类为 “女性领袖”。

开发人员 Leif Ryge 得到的标签是“心理语言学家”,但换其他照片后,标签变成了 “变态”、“流浪汉” 和 “无政府主义者”。

Paglen 说:“我认为这种给人分类的事儿,最好再谨慎一些。”

更残酷的是,有人上传了一张他16岁时参加佛罗里达马林鱼队(一支棒球队)的照片,被AI无端端地分类为“强奸嫌疑犯”。

一名女孩被打了数个“书呆子”(swot, grind, nerd, wonk)的标签,甚至还有“笨蛋”(dweeb)标签:

她愤怒地表示:

我完全被某种“机器学习”拖到了地狱。它叫我“笨蛋”。“书呆子”!“笨蛋”!这个算法是想打架吗?

揭露ImageNet缺陷,AI偏见问题不容忽视

该项目也部分地突出了 ImageNet 以 “有问题” 和 “冒犯” 的方式对人们进行分类的缺陷,也就是人为的偏见。(一些上传照片的男人似乎被随机标记为 “强奸嫌疑人”,原因无法解释。)Paglen 表示,AI 的错误系统和机器学习偏见的普遍存在是由于其受到人类创造者的影响:

ImageNet 的基础结构基于 Wordnet 的语义结构,这是 20 世纪 80 年代普林斯顿大学开发的一个词汇分类数据库。令人反感和奇怪的标签全部来自 WordNet,因为这个数据库中包含有性别歧视或种族主义的术语。因此,ImageNet Roulette 返回的结果也依据这些类别。

Paglen 指出在过去几个世纪将人们分类的黑暗历史。如南非种族隔离期间:一本名为 “生命之书” 的书根据黑人的种族背景对其进行了分类,并被用来确定人们可以在哪里生活、获得什么工作,孩子可以去哪里上学等等。

他还比较了机器学习的兴起和人们的认知。19 世纪末 20 世纪初,拍照是中立的。但随着社会达尔文主义的兴起,摄影有助于创造新的伪科学领域,这种观念促进了某些文化和民族,在进化上优于其他文化和民族的观念。

颅相学实际上缺乏任何基础并且具有深刻的种族主义色彩,理论是通过测量不同种族个体之间的身体差异,将人们的外表与他们的行为联系起来。Paglen 说,有那么一群伪科学家通过测量人们的面孔,以确定他们是否是罪犯。

Paglen 和 Crawford 希望揭露今天人工智能系统的真相,破坏了人们普遍认为 AI 在某种程度上是中立的,是构建在数学之上的的观点。

值得庆幸的是,ImageNet Roulette揭示了常见机器学习方法的内部工作原理,而不是模糊它们。随着人工智能的发展,无论好坏,我们都需要更多类似的工具。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部