没个985，AI数据标注员的工作都找不到了？_

来源：新硅NewGeek

在阅读正文前，先考你三个问题，回答出第三个，将会受到硅基君的膜拜。

Q1：把图片中的猫框选出来。

你：这还不简单？

图/视觉中国

Q2：下面的表情包展现的态度是积极的还是消极的？

你：有点难度，但我可是十级上网冲浪选手！

Q3：把下列图片中有病的地方圈出来，并标明出现了什么问题。

你：？？？

图/视觉中国

从非常简单，到汗流浃背，这三个问题展现了数据标注行业，在如今的变化，从是个人就能做，到专业性越来越强。

夸张点说，不是专业对口的985，未来连数据标注都做不了。

前不久，Scale AI创始人表示了类似的观点：“我们需要最优秀和最聪明的头脑来贡献数据。”

Scale AI是一家估值138亿美元的数据标注公司，估值都快赶上马斯克的x.AI了。它们的主要工作就是给OpenAI、META、谷歌等公司提供训练AI的数据，被称为“大模型公司的弹药库”。

从实际行动上来看，Scale AI也的确在“开除”低学历人群。据Rest of World的报道，Scale AI关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。

公司的招聘重点转向美国本土，招募高知人士，来帮助标注训练大模型的专业知识。

在传统语境下，数据工人不就应该选非洲、亚洲的廉价劳动力，怎么现在还需要高知人士了？

这其实就是因为随着大模型的不断进化，所需要的数据质量水涨船高，而事实上，数据标注已经分化成了两种完全不同的行业。

首先我们要区分一下，简单数据标注和复杂数据标注有什么不同。

下图是简单数据标注的几种方式，先感受一下。

简单的数据标注也就是我们更为熟悉的“把猫框出来”“把脸部轮廓线描出来”。

用专业点的话来表述就是：针对语音、图像、文本等通过做标记、框对象、做注释等方式对数据集作出标注，再将这些数据集喂给机器训练和学习。

这类数据标注任务的特点就是，简单但量大，和在流水线上打螺丝类似，是个劳动密集型产业，是个正常人就能做。

比较知名且较为简单的数据标注就是李飞飞开发的ImageNet。在2009年推出时，是人工智能史上最大的数据集，包含1500万张图像，涉及22000个类别。

下图就是一个ImageNet数据标注案例，比如将图片中的泰迪熊框出来，并标注上Teddy Bear。

李飞飞的项目借助了亚马逊的mechanical turk平台，众包了来自167个国家的4.9万名工作者，从近10亿张候选图片中筛选出符合条件的数据。

如今类似的数据标注众包网站，需求很大，像行人轨迹采集，经久不衰的宠物图片采集，人像分析，眼球采集等。

从招聘JD上来看，只需要有基础的计算机操作能力，经过简单培训，人人都可以上手。

而随着技术进步，人们对于AI的要求越来越高，AI可执行的任务也变得复杂，因此AI对于数据的要求也变得复杂。

简单来说，是从简单的“框出某个东西”，变成了给某个数据写一串具体的描述。

举个例子，以前的AI只需要判断一张图片中的动物是不是猫，这个手写数字是1还是2，往往只需要学习二维数据。

而如今AI不光要学习光谱、热成像等数据，还要在专业场景下用术语进行准确描述。就像文章开头那个X光片，没有专业知识如何分辨不同病状？

同时，以ChatGPT为代表的生成式人工智能，还需要AI学会带有逻辑的编程工作，这时，我们就需要投喂AI带有“关系”的数据。

简单来说，简单的数据标注工作只需要告诉机器“1是1，2是2”，但复杂的数据标注工作，要告诉机器“1+1=2”。

具体来说，ChatGPT为代表的大模型所需要的数据标注，可以基于训练过程分为预训练、监督微调、人类反馈三个阶段。

阿里研究院《2024大模型训练数据白皮书》

第一阶段预训练，数据相对简单，用到的就是一些网页、书籍等，OpenAI、谷歌等公司陷入的侵权官司涉及的数据，也主要用在预训练中。

虽然预训练用到的数据很多，但大多未经过滤，存在很多暴力、反话、脏话等“垃圾信息”，此时的预训练模型有一定的逻辑，但回答的内容效果往往不佳。

比如你问预训练大模型，“张三偷税漏税该怎么处罚”，大模型原本应该根据法律条文进行回答，但预训练大模型可能直接使用罗翔讲的段子。

这时候就需要人类（数据标注员）的介入，也就是第二、三阶段。

第二阶段微调，数据标注员会设计问答，编写正确答案，将题目喂给模型，让模型学习。

这一阶段，虽然问题形式内容看起来都不难，但真正操作起来需要有一定经验。针对不同功能/形式的大模型就需要不同的微调数据集，如何快速找到/维护合适的数据，如何处理大量数据都有技术要求。

而如果你要做一个垂类行业的大模型，微调数据就要更加专业。

同样拿法律大模型为例，Gtihub上有一个LexiLaw-中文法律大模型项目，项目中的微调数据如下图所示，不说有多难，但起码要是法律科班出身吧，还要懂一点大模型的技术。

第三阶段人类反馈，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道什么才是好答案。

比如，大模型会针对“人工智能有什么用”这个问题，给出四个答案，数据标注员就需要对这四个答案的好坏排个序。有时候，针对“张三偷税漏税该怎么处罚”这类专业问题，还需要做进一步的事实核实。

与“把猫框出来”这种有标准答案的数据标注不同，大模型的数据标注没有标准答案，更像是阅读理解。在数据标注员拿不定答案时，就得向有知识储备的数据标注员求助。

如果是行业大模型的数据标注员，在微调/反馈阶段还需要具备行业知识，比如训练法律大模型就需要法律知识，微调古诗词大模型还需要具备文学素养，评价上海话大模型的回答就需要会上海话。

这也就是为什么，随着大模型向着能力越来越强的AGI、专业的垂类模型发展，对数据的要求越来越高，导致数据标注需要高学历、高素质人才。

大模型时代的数据标注行业也从劳动密集型转变成知识密集型。

面对数据标注员要求不一的情况，科技公司也采取了不同措施。

比如，OpenAI的前期数据标注员大多在肯尼亚，主要工作是帮大模型过滤掉“有害”内容，标注员月薪在200到300美元之间。

但涉及模型微调的时候，就真是一群名校毕业的博士生来操作了。

不信，你试试给下面这个甲骨文打标注？

微软亚洲研究院甲骨文校重助手Diviner

本文来自微信公众号：新硅NewGeek （ID：XinguiNewgeek），作者：董道力，编辑：张泽一

头条号入驻

弈事堂主弈事堂主

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

没个985，AI数据标注员的工作都找不到了？

头条号入驻

娃哈哈终端缺货的背后

猿编程创始人李翊：让人工智能教育更专业化、体系化

那些选择退学的博士生们

财经自媒体联盟更多自媒体作者

热文排行榜