没个985,AI数据标注员的工作都找不到了?

没个985,AI数据标注员的工作都找不到了?
2024年07月04日 21:47 弈事堂主

来源:新硅NewGeek

在阅读正文前,先考你三个问题,回答出第三个,将会受到硅基君的膜拜。

Q1:把图片中的猫框选出来。

你:这还不简单?

图/视觉中国

Q2:下面的表情包展现的态度是积极的还是消极的?

你:有点难度,但我可是十级上网冲浪选手!

Q3:把下列图片中有病的地方圈出来,并标明出现了什么问题。

你:???

图/视觉中国

从非常简单,到汗流浃背,这三个问题展现了数据标注行业,在如今的变化,从是个人就能做,到专业性越来越强。

夸张点说,不是专业对口的985,未来连数据标注都做不了。

前不久,Scale AI创始人表示了类似的观点:“我们需要最优秀和最聪明的头脑来贡献数据。”

Scale AI是一家估值138亿美元的数据标注公司,估值都快赶上马斯克的x.AI了。它们的主要工作就是给OpenAI、META、谷歌等公司提供训练AI的数据,被称为“大模型公司的弹药库”。

从实际行动上来看,Scale AI也的确在“开除”低学历人群。据Rest of World的报道,Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。

公司的招聘重点转向美国本土,招募高知人士,来帮助标注训练大模型的专业知识。

在传统语境下,数据工人不就应该选非洲、亚洲的廉价劳动力,怎么现在还需要高知人士了?

这其实就是因为随着大模型的不断进化,所需要的数据质量水涨船高,而事实上,数据标注已经分化成了两种完全不同的行业。

首先我们要区分一下,简单数据标注和复杂数据标注有什么不同。

下图是简单数据标注的几种方式,先感受一下。

简单的数据标注也就是我们更为熟悉的“把猫框出来”“把脸部轮廓线描出来”。

用专业点的话来表述就是:针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集喂给机器训练和学习。

这类数据标注任务的特点就是,简单但量大,和在流水线上打螺丝类似,是个劳动密集型产业,是个正常人就能做。

比较知名且较为简单的数据标注就是李飞飞开发的ImageNet。在2009年推出时,是人工智能史上最大的数据集,包含1500万张图像,涉及22000个类别。

下图就是一个ImageNet数据标注案例,比如将图片中的泰迪熊框出来,并标注上Teddy Bear。

李飞飞的项目借助了亚马逊的mechanical turk平台,众包了来自167个国家的4.9万名工作者,从近10亿张候选图片中筛选出符合条件的数据。

如今类似的数据标注众包网站,需求很大,像行人轨迹采集,经久不衰的宠物图片采集,人像分析,眼球采集等。

从招聘JD上来看,只需要有基础的计算机操作能力,经过简单培训,人人都可以上手。

而随着技术进步,人们对于AI的要求越来越高,AI可执行的任务也变得复杂,因此AI对于数据的要求也变得复杂。

简单来说,是从简单的“框出某个东西”,变成了给某个数据写一串具体的描述。

举个例子,以前的AI只需要判断一张图片中的动物是不是猫,这个手写数字是1还是2,往往只需要学习二维数据。

而如今AI不光要学习光谱、热成像等数据,还要在专业场景下用术语进行准确描述。就像文章开头那个X光片,没有专业知识如何分辨不同病状?

同时,以ChatGPT为代表的生成式人工智能,还需要AI学会带有逻辑的编程工作,这时,我们就需要投喂AI带有“关系”的数据。

简单来说,简单的数据标注工作只需要告诉机器“1是1,2是2”,但复杂的数据标注工作,要告诉机器“1+1=2”。

具体来说,ChatGPT为代表的大模型所需要的数据标注,可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。

阿里研究院《2024大模型训练数据白皮书》

第一阶段预训练,数据相对简单,用到的就是一些网页、书籍等,OpenAI、谷歌等公司陷入的侵权官司涉及的数据,也主要用在预训练中。

虽然预训练用到的数据很多,但大多未经过滤,存在很多暴力、反话、脏话等“垃圾信息”,此时的预训练模型有一定的逻辑,但回答的内容效果往往不佳。

比如你问预训练大模型,“张三偷税漏税该怎么处罚”,大模型原本应该根据法律条文进行回答,但预训练大模型可能直接使用罗翔讲的段子。

这时候就需要人类(数据标注员)的介入,也就是第二、三阶段。

第二阶段微调,数据标注员会设计问答,编写正确答案,将题目喂给模型,让模型学习。

这一阶段,虽然问题形式内容看起来都不难,但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集,如何快速找到/维护合适的数据,如何处理大量数据都有技术要求。

而如果你要做一个垂类行业的大模型,微调数据就要更加专业。

同样拿法律大模型为例,Gtihub上有一个LexiLaw-中文法律大模型项目,项目中的微调数据如下图所示,不说有多难,但起码要是法律科班出身吧,还要懂一点大模型的技术。

第三阶段人类反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道什么才是好答案。

比如,大模型会针对“人工智能有什么用”这个问题,给出四个答案,数据标注员就需要对这四个答案的好坏排个序。有时候,针对“张三偷税漏税该怎么处罚”这类专业问题,还需要做进一步的事实核实。

与“把猫框出来”这种有标准答案的数据标注不同,大模型的数据标注没有标准答案,更像是阅读理解。在数据标注员拿不定答案时,就得向知识储备的数据标注员求助。

如果是行业大模型的数据标注员,在微调/反馈阶段还需要具备行业知识,比如训练法律大模型就需要法律知识,微调古诗词大模型还需要具备文学素养,评价上海话大模型的回答就需要会上海话。

这也就是为什么,随着大模型向着能力越来越强的AGI、专业的垂类模型发展,对数据的要求越来越高,导致数据标注需要高学历、高素质人才。

大模型时代的数据标注行业也从劳动密集型转变成知识密集型。

面对数据标注员要求不一的情况,科技公司也采取了不同措施。

比如,OpenAI的前期数据标注员大多在肯尼亚,主要工作是帮大模型过滤掉“有害”内容,标注员月薪在200到300美元之间。

但涉及模型微调的时候,就真是一群名校毕业的博士生来操作了。

不信,你试试给下面这个甲骨文打标注?

微软亚洲研究院甲骨文校重助手Diviner

本文来自微信公众号:新硅NewGeek (ID:XinguiNewgeek),作者:董道力,编辑:张泽一

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部