普林斯顿大学研究:AI算命不靠谱,400多研究者跨界合作

普林斯顿大学研究:AI算命不靠谱,400多研究者跨界合作
2021年01月11日 20:59 智东西

编译 |  温淑

编辑 |  Panken

智东西1月11日消息,据报道,普林斯顿大学研究人员进行了一项大规模协作研究,试图用机器学习算法对人生轨迹进行预测。

结果显示,模型的预测与现实相差较大。研究人员称人生轨迹的可预测性极低。

目前这项研究已经发表在《美国国家科学院院刊(Proceedings of the National Academy of Sciences)》上,论文题目为《通过科学的大规模合作来测量生活结果的可预测性(Measuring the predictability of life outcomes with a scientific mass collaboration)》

论文链接:

https://www.pnas.org/content/early/2020/03/24/1915006117

一、灵感来自维基百科,用“共同任务方法”研究

据普林斯顿大学社会学教授兼信息技术政策中心临时主任马特·萨尔加尼科(Matt Salganik)介绍,这个项目的灵感来自于维基百科。

维基百科是一个开放式协同的百科网站,创建于2001年,是世界上最早一批大规模合作项目之一。

马特认为这种大规模合作的方式也可以用于研究社会问题。为此,他与普林斯顿大学威廉·托德(William S·Tod)社会学和公共事务教授萨拉·姆克拉纳汉(Sara McLanahan)、普林斯顿大学社会学研究生伊恩·伦德伯格(Ian Lundberg)和亚历克斯·金德尔(Alex Kindel)合作,发起了这个项目,规定用共同任务方法进行研究。

据悉,这种研究方法常用于机器学习,但很少用在社会科学中。研究过程中,组织者先设计一项预测任务,然后招募大量不同类型的研究人员,提供给他们完全相同的数据。研究人员基于这些数据来建立预测模型。

项目参与者可以自由选用任何技术来分析数据、完成预测。同时,被预测事件的真实情况由组织者掌握,不向研究者公开。

共同任务方法有几个优点:

首先,它能够对可预测性进行可靠的估计。也就是说,如果实验结果显示可预测性高出预期,研究人员不必因为对过度拟合或研究人员自由度的担忧而把这个结果丢弃。相反,如果结果显示可预测性低于预期,也不能因为特定研究人员或研究方法的局限性而对这个结果不予考虑。

另外,共同任务方法能够实现不同研究方法和理论之间的横向比较。

二、“脆弱家庭研究”,跨学科招募大量研究者

普林斯顿大学牵头的这个项目旨在研究人生轨迹的可预测性。研究人员将其命名为“脆弱家庭和儿童福利研究”(the Fragile Families and Child Wellbeing Study),简称为脆弱家庭研究。研究对象是1998到2000年间美国大城市的未婚生子家庭及非婚生子女。

1、数据来源

为了进行社会学研究,脆弱家庭研究进行了长期而密集的数据收集活动。

在锁定要研究的非婚生子女家庭后,研究人员分6次收集数据,分别是在儿童出生、1岁、3岁、5岁、9岁和15岁时。每次的数据收集包含不同方面的信息。

随着时间推移,数据收集涵盖的方面不断增多。例如,在儿童1岁时,数据仅包括对母亲或父亲的访谈;等到孩子9岁时,就要增加对孩子的老师及孩子本人的访谈。

收集的数据最多由10个部分组成,每个部分有一个特定的主题。

例如,第一次收集数据时(孩子出生时),对孩子母亲的访谈包括以下主题:儿童健康与发展、父母之间的关系、父亲的情况、婚姻态度、与远亲的关系、环境因素与政府项目、健康与健康行为、人口特征、教育与就业、收入水平。

在第五次收集数据时(孩子9岁时),访谈则涉及以下主题:父母监督与关系、父母管教、兄弟姐妹关系、日常生活、学校、早期犯罪、任务完成与行为、健康与安全。

除了上述调查,研究人员还在孩子3岁、5岁、9岁时到孩子家里进行了实地评估,评估内容包括心理测试、生物测量(身高、体重等)及对邻居和家庭的观察等。

通过手段,研究团队掌握了翔实的数据。

2、人员招募

要满足共同任务方法的要求,除了积累数据外,还要有大量研究者参与。

组织者采用了联系同事、与希望学生参与的教师合作、访问大学和课程等方式招募参与者。

最终,457位来自不同领域、不同职业阶段的研究人员投递了申请,并在之后组成团队参与研究。由于来自不同领域,许多团队使用的机器学习方法并不局限于社会学领域。

研究结束后,组织者收到了160个有效结果。

3、预测过程

在项目进行过程中,组织者将收集的前5次数据制作成一个背景数据集提供给研究人员。根据论文,背景数据集涵盖了4242个家庭、每个家庭有12942个变量。为了保护隐私,组织者排除了遗传和地理信息。

第六次收集的数据中,6项作为培训数据被提供,剩余的则用作预测的主题。

研究开始后,各组研究人员采用不同方法,基于背景数据和培训数据建立模型,对孩子的人生轨迹进行预测。

三、预测结果出人意料,与现实相差较大

组织者对比了研究对象的实际情况与各界研究人员提供的预测结果。出人意料的是,在160份报告中,与现实最接近的预测结果也并不准确。

论文中写道:“脆弱家庭包含了数以千计的变量,收集这些数据是为了帮助科学家了解这些家庭的生活,研究人员无法对他们未知的数据做出准确的预测。”

组织者还注意到尽管研究团队采用了不同的方法来搭建预测模型,但最后的预测结果是十分相似的。即便是差异最大的预测结果之间,不同之处也少于最接近现实的预测与实际情况之间的。换句话说,不同研究团队之间相互预测的准确率会更高。

另外,有一些项目(比如某个孩子的GPA分数)被所有团队准确预测了,但也有一些项目的预测结果普遍不准确。这说明误差与被预测家庭的相关性更高,而与采用的预测技术关系甚微。

结语:人生轨迹无法预测,技术应用要谨慎

对于研究的结果,脆弱家庭研究的组织者之一马特·萨尔加尼科说:“这些结果向我们表明,机器学习并不神奇,在生命进程方面,显然还有其他因素在起作用。”

另一位组织者麦克拉纳汉也表示“结果令人大开眼界”,“要么运气在人们生活中扮演着重要的角色,要么社会科学家的理论漏掉了一些重要的变量,现在下结论还为时过早。”她说道。

无论如何,这项研究都说明了至少在目前,人生无法被准确预测,机器学习算法也不该被神化。

此外,论文的112位共同作者还指出,由于人生轨迹的可预测性并不高,社会学家和数据科学家应当谨慎使用预测模型,尤其是在刑事司法系统和社会项目中。

文章来源:Princeton University,Proceedings of the National Academy of Sciences

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部