几十年来,众包的人类质量评估者一直是搜索引擎算法评估过程的中流砥柱。尽管如此,研究和生产实施方面可能会发生潜在的巨大变化。
Bing 最近的突破性研究(据称已经有一些商业实施)以及其他人密切相关的信息检索研究的急剧增加,表明一些重大变革即将到来。
这些变化可能会对质量评估者大军以及我们看到的算法更新的频率产生深远的影响。
评估的重要性
除了抓取之外,搜索引擎的索引、排名和结果服务也是重要的评估过程。
对于给定搜索引擎用户的上下文信息需求,当前或提议的搜索结果集或实验设计与在给定时间、给定查询相关性的臭名昭著的主观概念的一致性如何?
由于我们知道许多查询的相关性和意图总是在变化,并且用户消费信息的偏好也在不断变化,因此搜索结果页面也需要进行更改以满足搜索者的意图和首选的用户界面。
一些变化具有可预测的、暂时的和周期性的查询意图转变。例如,在接近黑色星期五的时期,许多通常被认为是信息性的查询可能会发生彻底的商业意图转变。类似地,像[Liverpool Manchester]这样的交通查询可能会在当地德比赛日转变为体育查询。
在这些情况下,不断扩大的历史数据遗产很可能支持用户认为更有意义的结果,尽管是暂时的。这些置信度可能会使季节性或其他可预测的周期性结果和临时 UI 设计发生变化,以便搜索引擎实施相对简单的调整。
然而,当涉及到不断发展的“相关性”和“质量”的更广泛概念时,以及出于实验设计变更的目的,搜索引擎必须知道搜索工程师开发后提出的排名变化确实对信息更好、更精确需求,而不是目前产生的结果。
评估是搜索结果演变的一个重要阶段,对于提供对拟议变更的信心至关重要 - 以及在需要时对拟议“系统”进行任何调整(算法调整)的大量数据。
评估是人们“进入循环”(离线和在线),在推广到生产环境之前以各种方式提供反馈的地方。
这并不是说评估不是生产搜索的连续部分。这是。然而,对现有结果和用户活动的持续判断可能会根据基于可接受的相关性(或满意度)的指标范围来评估已实施的变更在生产中的持续表现。基于人类法官提交的初始相关性评估的度量范围。
Bing 的研究人员 Thomas 等人在 2022 年发表的一篇题为“人群是由人组成的:来自大规模人群标签的观察”的论文中,在引用网络搜索的受监控部分“部分通过基于 RBP 的分数进行评估,每天对数以万计的法官提交的标签进行计算。” (RBP 代表排名偏向精度)。
人机交互 (HITL)
数据标签和标记
在我们继续之前有一个重要的点。我将在本文中多次提到标签和标签,并且澄清标签和标签的含义将使本文的其余部分更容易理解:
在继续之前,我将向您提供几个大多数人都熟悉的现实世界示例,以加深观众的理解:
- 您是否曾经检查过 Gmail 帐户并将某些内容标记为垃圾邮件?
- 您是否曾在 Netflix 上将一部电影标记为“不适合我”、“我喜欢这个”或“喜欢这个”?
您提交的所有这些操作都会创建搜索引擎或信息检索系统中使用的数据标签。是的,即使是 Netflix 在信息检索方面也拥有巨大的基础和出色的信息检索研究团队工具。(请注意,Netflix 既是信息检索领域的一个强大子集,称为“推荐系统”。)
通过在 Netflix 电影上标记“不适合我”,您提交了一个数据标签。你成为一名数据标签员,帮助“系统”更多地了解你喜欢什么(以及与你相似的人喜欢什么),并帮助 Netflix 进一步训练和调整他们的推荐系统。
数据标签就在我们身边。标记标记数据,以便将其转换为数学形式以进行大规模测量。
信息检索和机器学习领域中大量的这些标签和“标签”被用作机器学习的训练数据。
“这张图片被标记为一只猫。”
“该图像已被标记为狗...猫...狗...狗...狗...猫,”等等。
所有标签都可以帮助机器通过足够多的标记为猫或狗的图像示例来了解狗或猫的样子。
标签并不是什么新鲜事;自从第一次对物品进行分类以来,它已经存在了几个世纪。当某物被标记为“子集”或“事物集”时,就会分配标签。
任何“分类”的东西实际上都贴有标签,将物品标记为属于该特定分类的人被视为贴标签者。
但展望最近,最著名的数据标记示例可能是reCAPTCHA。每次我们选择图像网格上的小方块时,我们都会添加标签,我们就是贴标签者。
作为人类,我们“进入循环”并提供反馈和数据。
解释完毕后,让我们继续讨论获取数据标签和反馈的不同方式,特别是与查询“相关性”的反馈,以调整算法或通过搜索引擎评估实验设计。
隐性和显性的评估反馈
虽然谷歌在面向非技术受众的文档中将其评估系统称为“严格测试”,但信息检索中的人机交互评估广泛通过隐式或显式反馈进行。
隐式反馈
通过隐式反馈,用户不会主动意识到他们提供了反馈。搜索引擎的许多实时搜索流量实验(即野外测试)都是针对极小部分真实用户(小至0.1%)进行的,随后对点击数据、用户滚动、停留时间和结果跳过的分析,落入隐式反馈的范畴。
除了现场实验之外,真实搜索引擎用户正在进行的一般点击、滚动和浏览行为也可以构成隐式反馈,并可能反馈到“学习排名(LTR)机器学习”点击模型中。
反过来,这又为提出的算法相关性变化提供了理论依据,因为非时间搜索者行为的变化和世界的变化导致了看不见的查询和查询的新含义。
关于搜索引擎优化 (SEO) 的争论由来已久,围绕的是在根据隐式点击数据进行进一步评估之前排名是否会立即发生变化。我不会在这里讨论这一点,只是想说,人们已经充分认识到信息检索研究领域中原始点击数据带来的巨大偏差和噪音,以及在实际环境中持续使用它所面临的巨大挑战。因此,许多研究工作围绕提出的点击模型进行无偏见学习排名和学习有偏见排名。
无论如何,在信息检索中,点击数据对于评估目的的重要性已不是什么秘密。由 Google 研究团队成员共同撰写的论文甚至 IR 书籍不计其数,例如“Web 搜索的点击模型”(Chuklin 和 De Rijke,2022)。
谷歌还在其“严格测试”文章中公开表示:
“我们会查看一长串指标,例如人们点击的内容、完成了多少查询、查询是否被放弃、人们点击结果需要多长时间等等。”
如此循环下去。检测到从学习到排名所需的更改、点击模型应用、工程、评估、检测到所需的更改、点击模型应用、工程、评估等。
明确的反馈
与来自不知情的搜索引擎用户(在现场实验或一般使用中)的隐式反馈相反,显式反馈来自主动意识的参与者或相关性标记者。
收集相关数据的目的是通过数学方式将其汇总并调整整个提议的系统。
最终寻求相关性标签的黄金标准——被认为接近查询匹配意图的基本事实(即现实世界的现实)。
收集相关性标签黄金标准的方法有多种。然而,银标准(不如金标准精确,但数据更广泛)经常被获取(并被接受),并可能用于协助进一步调整。
明确的反馈有四种主要格式。每种方法都有其优点和缺点,主要与相关性标签质量(与黄金标准或地面事实相比)以及该方法的可扩展性有关。
真实用户与用户反馈团队进行反馈会议
搜索引擎用户研究团队和在不同国家提供不同背景的真实用户在用户反馈会议中进行协作,为查询及其意图提供相关数据标签。
这种格式可能提供接近黄金标准的相关性。然而,该方法由于其耗时的性质而无法扩展,并且参与者的数量永远无法代表更广泛的搜索人群。
真正的主题专家/主题专家/专业注释者
真正的主题专家和专业的相关性评估员为查询映射提供相关性,并根据他们在数据标签中的意图进行注释,包括许多微妙的案例。
由于这些是意图映射查询的作者,他们知道确切的意图,并且这种类型的标签可能被认为接近黄金标准。然而,这种方法与用户反馈研究团队的格式类似,由于相关标签的稀疏性以及该过程的耗时性质,不可扩展。
在近来引入更具可扩展性的众包人类质量评估者方法(后续)之前,这种方法得到了更广泛的使用。
搜索引擎只是询问真实用户某些内容是否相关或有帮助
真正的搜索引擎用户会被搜索引擎主动询问搜索结果是否有帮助(或相关),并有意识地以“是”或“否”响应的形式提供明确的二进制反馈,以及最近在野外发现的“竖起大拇指”的设计更改。
众包的人类质量评估员
明确反馈的主要来源来自“人群”。主要搜索引擎拥有大量众包的质量评估员,他们接受过一些培训和手册,并通过在全球远程工作的外部承包商聘用。
据称,仅 Google 就有 16,000 名这样的质量评估员。每个搜索引擎对这些众包相关性标签及其所属程序的引用方式不同。
谷歌将其参与者称为质量评估者计划中的“质量评估者”,而第三方承包商则将谷歌的网络搜索相关性计划称为“育空项目”。
Bing 将其参与者简单地称为人类相关性系统 (HRS) 中的“法官”,而第三方承包商则将 Bing 的项目简单地称为“网络内容评估员”。
尽管存在这些差异,参与者的目的基本上是相同的。众包人类质量评估者的作用是提供模拟世界各地搜索引擎用户的合成相关性标签,作为显式算法反馈的一部分。反馈通常采取将提议的变更与现有系统或与其他提议的系统变更进行并排(成对)比较的形式。
由于其中大部分被认为是离线评估,因此比较的并不总是实时搜索结果,还有结果图像。而且它也不总是成对比较。
这些只是质量评估员通过第三方承包商执行的许多不同类型任务中的一部分,以进行评估和数据标记。在拟议的变更推广到产品搜索后,相关性法官也可能会持续监控。(例如,正如前面提到的 Bing 研究论文所提到的那样。)
无论采用哪种反馈获取方法,人机交互相关性评估(无论是隐式还是显式)在许多算法更新之前都发挥着重要作用(例如,谷歌仅在 2022 年就推出了 4,700 多项更改),包括现在越来越频繁的算法更新。广泛的核心更新,最终似乎是对重新审视的基本相关性的总体评估。
查询级别和系统级别的相关性标记
尽管我们看到的博客文章提醒我们人类质量评估者通过推荐流量分析访问我们的网站的可怕前景,但自然地,在为规模而构建的系统中,质量评估者在页面级别甚至单个评估者评估的单独结果级别本身没有任何意义。
人类质量评估者不会孤立地判断网站或网页
评估是对系统而不是网页的测量——“系统”意味着生成建议更改的算法。贴标签者提供的所有相关性标签(即“相关”、“不相关”、“高度相关”)都会汇总到系统级别。
“我们使用评级者的回复来评估变化,但它们不会直接影响我们搜索结果的排名。”
–“我们的质量评估者如何使搜索结果变得更好”,Google 搜索帮助
换句话说,虽然相关性标签不会直接影响排名,但聚合数据标签确实提供了一种方法,可以对提议的算法更改(系统)的效果进行总体(平均)测量,更精确地相关(排名时),非常依赖各种类型的算法平均值。
组合查询级分数来确定系统级分数。来自相关性标签的数据被转换为数值,然后转换为“平均”精度指标,以在更广泛地向搜索引擎用户推出之前进一步“调整”提议的系统。
当“人类进入循环”时,工程师希望通过提议的更改实现的预期平均精度指标与现实相差多远?
虽然当所有内容都转化为相关性度量的数值时,我们不能完全确定聚合数据标签上使用的指标,但许多研究论文中都有普遍认可的信息检索排名评估指标。
此类论文的大多数作者都是搜索引擎工程师、学者或两者兼而有之。生产遵循信息检索领域的研究,所有网络搜索都是该领域的一部分。
这些指标是顺序感知的评估指标(其中相关性的排名顺序很重要,如果排名顺序不正确,则对评估进行加权或“惩罚”)。这些指标包括:
- 平均倒数排名 (MRR)。
- 排名偏差精度 (RBP)。
- 平均精度 (MAP)。
- 标准化和非标准化贴现累积增益(分别为 NDCG 和 DCG)。
在谷歌研究工程师共同撰写的一篇2022年研究论文中,NDCG和AP(平均精度)被称为成对排名结果评估的规范:
“搜索和推荐系统离线评估的一个基本步骤是确定一个系统的排名是否优于第二个系统的排名。这通常涉及在给定项目级相关性判断的情况下,将每个排名提炼为标量评估指标,例如平均精度(AP)或标准化折扣累积增益(NDCG)。如果一个系统的指标值往往更高,我们就可以说它比另一个系统更受青睐。”
–“没有评估指标的离线检索评估”,Diaz 和 Ferraro,2022 年
有关 DCG、NDCG、MAP、MRR 及其在网络搜索评估和排名调整中的通用性的信息已广泛提供。
爱丁堡大学前助理教授 Victor Lavrenko 也描述了一种更常见的评估指标,即平均精度:
“平均精度 (MAP) 是用于比较搜索算法的标准单数度量。平均精度 (AP) 是找到相关文档的所有级别的……精度值的平均值。然后对大量查询取 AP 值的平均值……”
因此,这实际上是评委从精选数据标签中提交的平均值,这些数据标签被提炼成可使用的数字指标,与工程之后希望的预测平均值进行比较,然后进一步调整排名算法。
质量评估者只是相关性标签者
质量评估者只是相关性标签者,对大量数据进行分类和提供,汇总并转化为以下方面的数字分数:
- 汇总提议的更改是否接近可接受的平均相关精度或用户满意度水平。
- 或者确定提议的更改是否需要进一步调整(或完全放弃)。
相关性标注的稀疏性造成瓶颈
无论使用何种评估指标,初始数据都是该过程中最重要的部分(相关性标签),因为如果没有标签,就无法通过评估进行测量。
排名算法或提议的更改都很好,但除非“人类进入循环”并确定它是否与评估相关,否则更改可能不会发生。
在过去的几十年里,在广泛的信息检索中,这种带有HITL标签的相关性数据的主要管道来自于众包的人类质量评估者,它取代了专业(但数量较少)的专家注释者作为搜索引擎的使用(以及他们对快速迭代的需求)增长。
将赞成和反对的意见依次转化为数字和平均值,以调整搜索系统。
但规模(以及对越来越多相关性标记数据的需求)越来越成为问题,而且不仅仅是搜索引擎(即使有这些人类质量评估者大军)。
数据标签的可扩展性和稀疏性问题提出了全球瓶颈和经典的“供不应求”挑战。
由于许多行业和市场中机器学习的爆炸式增长,对数据标签的广泛需求急剧增长。每个人都需要大量的数据标签。
咨询公司 Grand View Research 最近的研究表明了市场需求的巨大增长,报告称:
“2022年,全球数据收集和标签市场规模估值为22.2亿美元,预计2023年至2030年将以28.9%的复合年增长率扩大,届时市场价值预计将达到137亿美元。”
这是很有问题的。特别是在竞争日益激烈的领域,例如人工智能驱动的生成搜索,需要对大型语言模型进行有效训练,需要大量的多种类型的标签和注释。
Deepmind 的作者在 2022 年的一篇论文中指出:
“我们发现当前的大型语言模型训练明显不足,这是最近关注于扩展语言模型同时保持训练数据量恒定的结果。......我们发现计算最优训练......模型大小每增加一倍,训练标记的数量就会增加也应该加倍。”
–“训练计算最优大型语言模型”,Hoffman 等人。
当所需标签数量的增长速度快于大众能够可靠地生产标签的速度时,通过对生产推广进行快速评估来实现相关性和质量的可扩展性可能会出现瓶颈。
缺乏可扩展性和稀疏性与快速迭代进展不相适应
当搜索引擎从专业注释者的行业规范转向提供相关性标签的众包人类质量评估者时,缺乏可扩展性是一个问题,而规模和数据稀疏性再次成为使用现状的主要问题人群。
众包人类质量评估员的一些问题
除了缺乏规模之外,利用人群还存在其他问题。其中一些与人性、人为错误、道德考虑和声誉问题有关。
虽然相关性在很大程度上仍然是主观的,但为众包的人类质量评估者提供了冗长的手册并对其进行了测试,以确定相关性。
Thomas 等人表示,Google 公开发布的质量评估者指南长达 160 多页,而 Bing 的人类相关性指南“据报道长达 70 多页”。
Bing 对其相关性培训手册的态度则要含糊其辞。尽管如此,如果你像我在研究这篇文章时所做的那样,你可以找到一些关于相关性含义的令人难以置信的详细文档(在本例中为本地搜索),这看起来像是他们在线深处的评判指南之一。
在本次培训中,我们努力灌输一种心态,欣赏评估者在其自然环境中作为“伪”搜索引擎用户的角色。
在模拟具有不同信息需求和期望的真实用户时,合成用户心态需要考虑许多因素。
这些需求和期望不仅取决于所在地区,还取决于几个因素,包括年龄、种族、宗教、性别、个人观点和政治立场。
人群是由人组成的
毫不奇怪,人类作为相关数据标记者也并非没有缺点。
人为错误根本不需要解释,网络上的偏见是一个众所周知的问题,不仅对于搜索引擎而言,更普遍的是在搜索、机器学习和人工智能领域。因此,专门的“负责任的人工智能”领域的出现,部分是为了应对机器学习和算法中固有的偏见。
然而,Bing 研究人员 Thomas 等人在 2022 年进行的大规模研究中发现,导致相关性标签精确度降低的因素不仅仅是简单的人为错误和传统的有意识或无意识的偏见。
尽管有培训和手册,Bing 的研究结果来自“作为搜索引擎开发的常规部分,从数十万工人收集的数亿个标签”,强调了一些不太明显的因素,更类似于生理和认知因素。导致相关标注任务精度质量下降的因素,可总结如下:
- 任务切换:与相关性标签质量的下降直接相关,这一点很重要,因为只有 28% 的参与者在一次会议中处理单个任务,而所有其他人都在任务之间移动。
- 左侧偏差:在并排比较中,与右侧的结果相比,左侧显示的结果更有可能被选择为相关。由于搜索引擎的成对分析很普遍,因此这一点令人担忧。
- 锚定:在相关性标记选择中发挥作用,因此标记器在第一个结果上分配的相关性标签也更有可能是为第二个结果分配的相关性标签。在会话中前 10 个评估的查询中,相同的标签选择似乎具有递减的选择概率。经过 10 次评估查询后,研究人员发现锚定问题似乎消失了。在这种情况下,贴标签者会挂钩(锚定)他们所做的第一个选择,并且由于他们当时没有真正的相关性或上下文概念,因此他们选择与下一个选项相同的相关性标签的概率很高。当贴标机从后续的成对集合中收集更多信息以供考虑时,这种现象就会消失。
- 人群工作人员的普遍疲劳是导致贴标精度降低的一个原因。
- 对于两个选项中哪一个成对结果相关,法官之间存在普遍分歧。只是意见不同,而且可能缺乏对目标搜索引擎用户的背景的真正理解。
- 评估人员在一天中和一周中的哪一天进行标记也发挥了作用。研究人员指出了一些相关的发现,这些发现似乎与区域庆祝活动进行时相关性标签准确性的下降有关,如果不进行更充分的探索,可能很容易被认为是简单的人为错误或噪音。
人群根本不是完美的。
数据标签行业的阴暗面
然后还有使用人类众包贴标机的另一面,这关系到整个社会。新兴经济体中的低薪“幽灵工人”受雇为搜索引擎以及科技和人工智能行业的其他人员标记数据。
主要在线出版物越来越多地通过以下标题吸引人们对这个问题的关注:
- “数以百万计的工人正在为便士训练 AI 模型” (《连线》杂志,2023 年 10 月)
- 《麻省理工学院技术评论》2022 年的标题称,人工智能行业从非西方经济体的经济灾难中受益,扩大了数据标签收集规模。
- 《时代》杂志 2023 年 1 月的文章报道了 OpenAI 使用肯尼亚工人每小时不到 2 美元的费用,使用标签服务来降低 ChatGPT 的毒性。
而且,谷歌自己的第三方质量评估员就在 2023 年 2 月抗议要求更高的工资,声称“工资微薄,没有福利”。
将所有这些加上潜在的人为错误、偏见、对现状的可扩展性问题、“相关性”的主观性、查询时缺乏真实的搜索者上下文以及无法真正确定查询是否具有导航意图。
我们甚至还没有触及围绕隐性反馈的潜在法规和隐私问题的雷区。
如何应对规模不足和“人性问题”?
大型语言模型(LLM)、ChatGPT 以及机器生成的合成数据的使用不断增加。
现在是时候考虑取代“人群”了吗?
2022 年,几位受人尊敬的信息检索研究人员参与了《研究和教育信息访问实验前沿》的一篇研究文章,探讨了替代人群的可行性,表明对话正在顺利进行。
克拉克等人。状态:
“最近法学硕士的出现使得使用它们以偏好判断的形式自动生成相关性评估成为可能。虽然之前已经研究过自动生成判断的想法,但新一代法学硕士促使我们重新提出人类评估员是否仍然必要的问题。”
然而,考虑到目前的情况,克拉克等人。对相关标签质量可能下降以换取巨大规模潜力提出具体担忧:
担心以降低质量来换取规模?
“令人担忧的是,机器注释的评估可能会降低质量,同时大大增加可用注释的数量。”
研究人员将几年前信息检索领域从专业注释者转向“大众”的重大转变进行了类比,并继续说道:
“尽管如此,随着人群评估器的使用增加,数据收集范式也发生了类似的变化……此类注释任务被委托给了人群工作者,注释质量大幅下降,但通过注释的大量增加来弥补数据。”
他们推测,“随着时间的推移”一系列平衡的机器和人类协作的可行性,或者用于评估的相关性标签的混合方法,可能是一种前进的方向。
探索了从 0% 机器和 100% 人类到 100% 机器和 0% 人类的广泛选择。
研究人员考虑了人类在工作流程开始时提供更详细的查询注释以协助机器进行相关性评估,或在流程结束时检查机器提供的注释的选项。
在本文中,研究人员提请注意在人群使用的相关性注释中使用法学硕士可能出现的未知风险,但他们承认在某些时候,行业可能会倾向于取代人类注释者法学硕士数量:
“目前尚不清楚与此类技术相关的风险是什么:很可能在未来几年内,我们将协助大幅增加法学硕士的使用,以取代人类注释者。”
法学硕士的世界发展很快
但一年之内就可以取得很大进展,尽管存在这些担忧,其他研究人员已经开始考虑使用机器作为相关贴标机的想法。
尽管克拉克等人提出了担忧。如果大规模转向机器使用,那么在不到一年的时间内,就会出现影响生产搜索的重大发展。
最近,备受尊敬的知名信息检索研究员 Mark Sanderson 分享了 Paul Thomas 演示文稿中的一张幻灯片,Paul Thomas 是四位 Bing 研究工程师之一,展示了他们将 GPT-4 作为相关性标签而不是来自人类的实施工作。人群。
Bing 的研究人员在 2023 年的论文《大型语言模型可以准确预测搜索者偏好》中,在使用 LLM 取代“人群”注释器(全部或部分)方面取得了突破。
桑德森在推文中强调了 Bing 最近所做工作的重要性(就搜索研究的潜在变化而言)。桑德森形容这次演讲“令人难以置信”,并指出,“几十年来,合成标签一直是检索研究的圣杯。”
在分享这篇论文和随后的案例研究时,Thomas 还分享了 Bing 现在正在使用 GPT-4 进行相关性判断。因此,不仅是研究,而且(在未知程度上)生产搜索也是如此。
那么 Bing 做了什么?
Bing 使用 GPT-4 进行相关性标记
当“大众”在阅读“指南”(Bing 相当于 Google 的质量评估指南)后根据明确的反馈做出判断时,传统的相关性评估方法通常会产生各种金奖和银奖的标签。
此外,利用隐式反馈进行的现场测试通常会产生黄金标签(现实世界“人在循环中”的现实),但缺乏规模且相对成本较高。
Bing 的方法利用了通过即时工程创建和训练的 GPT-4 LLM 机器学习伪相关注释器。这些实例的目的是模仿质量评估者根据精心挑选的一组黄金标准标签来检测相关性。
然后推出该技术,通过机器学习更广泛地提供批量“黄金标签”注释,据报道,其相对成本只是传统方法的一小部分。
该提示包括告诉系统它是一个搜索质量评估器,其目的是使用简化为二进制相关/不相关判断的标签来评估一组结果中的文档是否与查询相关,以确保一致性并最大限度地降低查询的复杂性。研究工作。
为了更广泛地汇总评估,Bing 有时会通过机器学习为每个提示使用最多五个伪相关性标签。
下面说明了该方法及其对成本、规模和所谓准确性的影响,并与其他传统的显式反馈方法以及隐式在线评估进行了比较。
有趣的是,两位合著者也是必应研究论文《人群是由人组成的》的合著者,他们无疑非常清楚利用人群的挑战。
资料来源:“大型语言模型可以准确预测搜索者偏好”,Thomas 等人,2023
通过这些发现,Bing 研究人员声称:
“为了衡量与真实搜索者的一致性,需要高质量的‘黄金’标签,但有了这些标签,我们发现模型可以比第三方工作人员产生更好的标签,而成本只是一小部分,而且这些标签让我们能够训练出更好的排名人员。”
规模化与低成本相结合
这些发现表明机器学习和大型语言模型有可能减少或消除数据标记以及评估过程中的瓶颈。
这是一个巨大的变化,为算法更新前的评估方式迈出了一大步,因为以“大众”成本的一小部分实现规模化的潜力是相当大的。
不仅仅是 Bing 报告了机器在相关性标签任务中优于人类的成功,也不仅仅是 ChatGPT。2022 年和 2023 年,其他研究肯定也会加快对人类评估员是否可以部分或全部被机器取代的大量研究。
其他人也报告说,在利用机器而不是人类进行相关性标记方面取得了一些成功
在 2023 年 7 月的一篇论文中,苏黎世大学的研究人员发现开源大型语言模型(FLAN 和 HugginChat)的表现优于人类人群工作者(包括训练有素的相关性注释器和持续高分的众包 MTurk 人类相关性注释器)。
尽管这项工作是在推文分析而不是搜索结果上进行的,但他们的发现是,其他开源大型语言模型不仅比人类更好,而且在相关性标签方面几乎与 ChatGPT 一样好(Alizadeh 等人,2023)。
这为大规模相关注释的更大潜力打开了大门,而无需当前格式的“人群”。
但接下来会发生什么,人类质量评估者的“人群”又会变成什么样子呢?
负责任的人工智能的重要性
对于搜索引擎来说,谨慎可能是压倒性的首要考虑因素。还有其他非常重要的考虑因素。
负责任的人工智能,这些方法的风险尚不清楚,内置偏见检测及其消除,或者至少是对偏见的认识和调整,仅举几例。法学硕士倾向于“产生幻觉”,而“过度拟合”也可能会带来问题,因此监控可能会考虑诸如此类的因素,并根据需要建立护栏。
可解释的人工智能还要求模型提供解释,解释为什么标签或其他类型的输出被认为是相关的,因此这是另一个可能会进一步发展的领域。研究人员还在探索如何在法学硕士相关性判断中建立偏见意识。
无论如何,人类相关性评估员都会受到持续监控,因此持续监控已经成为评估过程的一部分。然而,我们可以假设必应和其他人会更加谨慎地采用这种机器主导的方法,而不是“人群”方法。还需要仔细监控,以避免质量下降以换取可扩展性。
在概述他们的方法时(如上图所示),Bing 分享了这个过程:
- 通过金色标签选择
- 批量生成标签
- 通过多种方法进行监控
“使用多种方法进行监控”肯定符合明确的警告。
下一步?
必应和其他公司无疑会寻求改进这些大规模收集注释和相关反馈的新方法。门被打开,带来了新的敏捷性。
在调整搜索结果以满足不断变化的信息需求时,低成本、高度可扩展的相关性判断过程无疑具有强大的竞争优势。
俗话说,秘密已经泄露,人们可以推测,在中短期内,信息检索领域(包括其他搜索引擎)的研究将继续升温到狂热状态。
一系列的人类和机器评估员?
Clarke 等人在 2023 年发表的论文“HMC:人机协作相关性判断框架的频谱”中。暗示了一种可行的方法,这很可能意味着用混合或频谱形式的机器取代人群的后续阶段。
虽然随着信心的增强和仔细监控,一系列人机协作可能会增加对机器学习方法的支持,但这并不意味着“人群”会完全离开。不过,随着时间的推移,人群可能会变得更少。
搜索引擎(或整个 IR 研究)似乎不太可能完全放弃使用人类相关性判断作为护栏和发人深省的感觉检查,甚至充当机器生成的相关性标签的判断。人类质量评估者还提出了一种更强大的方法来对抗“过度拟合”。
就其对搜索者生活的潜在影响而言,并非所有搜索区域都被视为相同。Clarke 等人,2023,强调了在新闻等领域更值得信赖的人类判断的重要性,这非常符合我们对“你的金钱或你的生活”(YMYL)的 SEO 的理解。
人群很可能根据谱系中的权重扮演其他角色,可能会扮演更多的监督角色,或者作为机器学习评估者的考试评分者,为大型语言模型提供考试,需要解释如何判断被制造了。
克拉克等人。问:“人类和法学硕士以及人工智能辅助注释之间的权重是多少才是理想的?”
在任何频谱或混合方法中实施人与机器的权重可能取决于研究步伐的加快程度。虽然不完全可比,但如果我们看看引入 BERT 和 Transformer 后研究领域的羊群运动,我们可以假设事情确实会发展得非常快。
此外,合成数据已经有了巨大的发展,所以这个“行进方向”符合这一点。
根据Gartner 的数据:
- “人工智能专用数据管理、合成数据和数据标签技术等解决方案旨在解决许多数据挑战,包括可访问性、容量、隐私、安全性、复杂性和范围。”
- “到 2024 年,Gartner 预测 60% 的人工智能数据将被合成,以模拟现实、未来场景并降低人工智能风险,而 2021 年这一比例为 1%。”
谷歌会采用这些机器主导的评估流程吗?
鉴于搜索引擎广泛使用的评估过程中几十年前的做法发生了翻天覆地的变化,谷歌似乎不太可能至少不会非常仔细地研究这一点,甚至已经在努力实现这一点。
如果评估过程通过使用大型语言模型消除了瓶颈,从而以较低的成本大幅减少相关性标记和算法更新反馈的数据稀疏性,并且也有可能获得更高质量的评估水平,那么“去那里”有一定的意义。
必应凭借这一突破拥有显着的商业优势,而谷歌必须留在人工智能游戏中并保持领先地位。
消除瓶颈有可能大幅扩大规模,特别是在非英语语言和其他市场,在这些市场中,标签可能更难以获得(例如,主题专家领域或围绕更多技术主题的细致入微的查询)。
虽然我们知道谷歌的搜索生成体验测试版尽管扩展到了 120 个国家,但仍然被认为是一项实验,旨在了解人们如何与有用的生成式 AI 搜索体验互动或找到有用的生成式 AI 搜索体验,但他们已经跨过了“AI 线”。
然而,谷歌对于在生产搜索中使用人工智能仍然非常谨慎。
谁能将所有反垄断和法律案件归咎于他们,再加上声誉受损的前景以及与用户隐私和数据保护法规相关的立法的增加?
谷歌技术与社会高级副总裁 James Manyika在 2022 年 12 月举行的《财富》头脑风暴人工智能大会上发表讲话时解释道:
“这些技术带来了一系列非同寻常的风险和挑战。”
然而,谷歌并不羞于对大型语言模型的使用进行研究。哎呀,BERT 首先来自 Google。
当然,谷歌也在探索合成查询生成在相关性预测中的潜在用途。Google 研究人员最近在 2023 年发表的这篇论文中对此进行了说明,并在 SIGIR 信息检索会议上进行了展示。
由于人工智能/机器学习中的合成数据减少了可能与隐私、安全和用户数据使用相关的其他风险,因此简单地凭空生成数据进行相关性预测评估实际上可能比当前的一些做法风险更小。
再加上其他因素,可能会为谷歌加入这些新的机器驱动的评估流程提供理由(在任何程度上,即使一开始的范围主要是人类的):
- 这一领域的研究正在升温。
- Bing 正在运行一些机器胜过人员标签的商业实施。
- SGE 需要大量标签。
- 现状存在规模挑战。
- 整个数据标签行业中低薪工人的使用越来越受到关注。
- 受人尊敬的信息检索研究人员问,现在是时候重新审视在标签中使用机器而不是人类的时候了吗?
作为更新过程的一部分公开讨论评估
谷歌最近似乎也更加公开地谈论“评估”,以及如何在“严格测试”之后进行实验和更新。似乎确实出现了向更广泛的社区开放对话的转变。
丹尼·沙利文上周刚刚发布了更新和“严格测试”的最新情况。
再次解释 Google 为何进行更新。
Search off The Record最近讨论了“Steve”(一个虚构的搜索引擎),以及如何根据人类评估者的判断(可能存在偏见)对 Steve 进行更新,以及讨论的其他问题。关于如何测试史蒂夫功能的更改等等进行了大量的讨论。
这一切似乎都表明评估的转变,除非我只是想象这一点。
无论如何,相关性评估过程中已经存在机器学习的元素,尽管是隐式反馈。事实上,谷歌最近更新了有关“搜索如何工作”的文档,围绕通过聚合和匿名的用户交互检测相关内容。
“我们将这些数据转化为信号,帮助我们的机器学习系统更好地估计相关性。”
那么,追随 Bing 的脚步也许并不是那么遥远的一步?
如果谷歌采取这种方法怎么办?
如果谷歌在评估过程中采用更具可扩展性的方法(以更低的成本大量访问更多标签,可能具有更高的质量),我们会期望看到什么?
规模、更大规模、敏捷性和更新
评估过程的规模以及相关反馈和评估的快速迭代为更高频率的更新以及进入多种语言和市场铺平了道路。
一种不断发展、迭代、与真正相关性的一致性以及满足这一点的算法更新可能就在我们面前,但影响并不那么广泛。整体上更加敏捷的方法。
Bing 已经在评估过程中采用了更加敏捷的方法,而 LLM 作为相关性标签的突破使他们更加如此。
Bing 的法布里斯·卡内尔 (Fabrice Canel) 在最近的一次采访中提醒我们,搜索引擎不断发展的评估方法,其中推出的变化并不像 Google 的广泛核心更新或“大”更新那样广泛和具有破坏性。显然,在必应,工程师可以快速构思、获得反馈,有时甚至可以在一天左右的时间内推出更改。
所有搜索引擎都将具有合规性和严格的审查流程,这不利于敏捷性,并且随着组织的老化和成长,毫无疑问会形成某种形式的流程债务。然而,如果可以在很大程度上保持质量的同时大幅缩短相关性评估过程,那么这至少会消除算法变更管理的一大障碍。
我们已经看到今年的更新数量大幅增加,在 8 月至 11 月之间进行了三项广泛的核心更新(大规模相关性重新评估),以及其间有关垃圾邮件、有用内容和评论的许多其他变化。
巧合的是(或者可能不是),我们被告知“系好安全带”,因为搜索即将发生重大变化。旨在提高相关性和用户满意度的更改。人群传统上提供相关反馈的所有事物。
所以,系好安全带。这将是一次有趣的旅程。
如果谷歌采取这条路线(使用机器标签来支持不太敏捷的“人群”方法),预计会有更多的整体更新,而且很可能,其中许多更新也将是未经宣布的。
我们可能会看到广泛的核心更新节奏增加,影响减少,因为敏捷的滚动反馈有助于在更快的学习排名、调整、评估和推出周期中不断调整“相关性”和“质量”。


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有