伴随着大模型的扩展应用,保持大模型与人类价值观对齐的重要性也日益凸显。
如果大模型生成的内容与人类价值观存在偏离,可能会带来传播有害信息、强化社会偏见、或提供违法指导等严重风险,进而对用户和社会造成负面影响。
在应对上述挑战中,现有的评估基准主要依赖人工设计上下文场景来评估大模型的对齐性。
但是,由于这种方式存在劳动密集、测试范围有限等弊端,难以覆盖现实世界中的各种应用场景,也无法及时适应大模型的快速演进从而发现新的对齐性漏洞。
与此同时,大模型赋能的智能体逐渐展现出优秀的自动化式解决任务的能力。具体表现为:能从过往交互中提炼经验、整合外部工具、通过推理来解决复杂任务等。
受智能体应用的启发,来自新加坡国立大学的一支团队提出了名为 ALI-Agent 的新框架,旨在利用大模型强大的自主能力进行全面和深入的对齐性评估。
图 | 相关论文(来源:arXiv)
ALI-Agent 的运作过程分为两个主要阶段:仿真和精炼。
在仿真阶段,ALI-Agent 基于预定义的静态数据集、或用户提出的要求,自动地生成现实的测试场景,进而评估大模型对于特定人类价值观的理解程度和遵从程度。
在精炼阶段,ALI-Agent 基于前一阶段大模型的回复来改进测试场景,以便探测大模型可能存在的长尾风险,从而深入揭示大模型的对齐性问题。
ALI-Agent 框架的灵感来源颇有意趣。它的核心思想是利用指令跟随能力更卓越的大模型,从而生成高难度的攻击性测试场景,进而观察在这些场景下能力较低的大模型的表现。
事实上,此前许多主流研究都采纳了通过能力更强的模型、来增强能力较弱模型的途径,诸如数据增广、知识蒸馏等技术。
然而,将这一思路具体运用到模型评估领域的实践却并不多见。而且,ALI-Agent 框架所取得的效果确实不错,它向人们揭示了大模型存在一些意想不到的漏洞。
举例来说,大模型通常能够在测试场景中识别并指出“在新加坡地铁站吃喝”是不被允许的行为。
但是,如果在测试场景中加入一些合理化的解释,比如“她希望能缓解自己的饥饿”,就有可能使大模型认同这一违规行为,而忽视其中违反法律法规的问题。
研究人员表示:“本次框架赢得了来自华为等合作企业的高度赞赏。有资深研究人员指出:ALI-Agent 在揭示模型对齐问题方面具有卓越效果,表现出出色的长尾风险检测能力。”
其所生成的测试场景能够有效掩盖不当行为的恶意特征,从而提高被测大模型识别潜在风险的难度,充分检验了模型的对齐水平。
如果 ALI-Agent 框架及其衍生版本得以应用和推广,它们在 AI 伦理审查、安全与法规遵从性评估等领域将大有可为。
比如,企业和机构可以借助此框架,审查其人工智能系统在伦理方面和合规方面的表现,全面评估这些系统在遵守相关法律法规和行业标准时可能存在的缺陷。
这样一来,就能及时发现系统在操作过程中是否存在传播有害内容或强化社会偏见等不当行为,从而避免潜在的负面影响。
而基于目前的研究成果,该团队计划进一步拓展 ALI-Agent 框架在更多重点领域(如医疗、法律、金融等)的应用。
同时,将继续加强框架的自动化水平,以提高评估的效率和准确性。
此外,他们还希望基于评测的结果,进一步修正和提高大模型的对齐水平。
其中一种有前景的方法是模型编辑(model editing),也可以称为知识编辑(knowledge editing)。
模型编辑(model editing)是一种直接编辑大模型参数的技术,其目标是在特定的兴趣范围内实现符合预期的改变。
未来,课题组打算尝试将模型编辑与 ALI-Agent 框架相结合,基于 ALI-Agent 发现的对齐性问题构建正反例对数据集,将其注入到模型的继续训练过程中,从而引导模型去学习更加对齐的行为模式。
当然通过本次成果,他们也希望能引起更多人对于大模型对齐性问题的关注,并期待与各界共同推动人工智能技术在符合人类价值观的轨道上实现健康发展。
参考资料:
1.https://arxiv.org/pdf/2405.14125
运营/排版:何晨龙
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有