来源:量子位
![](http://k.sinaimg.cn/n/sinakd20240628s/650/w1440h810/20240628/cc69-7c7d88f4f69e74f130a73b03ec7dcc99.jpg/w700d1q75cms.jpg)
OpenAI突然发布新模型,基于GPT-4,可以帮助下一代GPT进行训练。
CriticGPT,用于给代码挑Bug时能找到75%以上,而相比之下人类只能找到不到25%。
它还可以给Bug写“锐评”,在60%的情况下人类训练师更喜欢有CriticGPT帮助下的批评。
![](http://k.sinaimg.cn/n/sinakd20240628s/680/w1000h480/20240628/b9a4-6ca5a0bc014134677450d76c3b739d09.png/w700d1q75cms.jpg)
有网友开玩笑说:“只会批评的GPT,这不是我前妻么?”
![](http://k.sinaimg.cn/n/sinakd20240628s/148/w836h112/20240628/18c2-b22c1a548ee2efa4dcd851f88a1b1ca0.png/w700d1q75cms.jpg)
但这项研究的重要之处在于,CriticGPT挑错能力可以泛化到代码之外。
比如在RLHF训练中给AI的输出挑错,而且已经进入OpenAI内部训练流程。
![](http://k.sinaimg.cn/n/sinakd20240628s/406/w790h416/20240628/3127-5ec8cdd2f32970272effcbb1ca1bdb50.png/w700d1q75cms.jpg)
更好的RLHF就能训练出更强的模型,更强的模型又能通过更好地挑错来增强RLHF训练……
论文结论中赫然写道:在真实世界数据中挑错误上,AI还可以继续进步,人类智能已经到头了。
![](http://k.sinaimg.cn/n/sinakd20240628s/344/w1000h144/20240628/a592-7c9178a3d922a685ac4a6d5a3222c9a5.png/w700d1q75cms.jpg)
“左脚踩右脚登天”,难道真的被这帮人给搞出来了?
这是一篇来自被解散的超级对齐团队的“遗作”,由前负责人Jan Leike带队。
而Leike本人已经跳槽去了隔壁的Anthropic,继续做这类研究。
![](http://k.sinaimg.cn/n/sinakd20240628s/650/w1000h450/20240628/e8ba-98acf80d7a838c2532c70776f4e6be74.png/w700d1q75cms.jpg)
基于GPT-4,改进GPT-4
OpenAI官网的技术博客变相承认了,GPT-4之后这么久没有大的改进,还真的遇到一些瓶颈:
随着AI能力变强,它犯的错也不那么显眼了,人类训练师都难以发现不准确之处。人类给不出反馈,那RLHF“人类反馈强化学习”就无从谈起了。
![](http://k.sinaimg.cn/n/sinakd20240628s/688/w1000h488/20240628/11e5-de5ecd15fe19e31e690562af3d28a777.png/w700d1q75cms.jpg)
CriticGPT正是为了应对这一挑战而生。
CriticGPT基于GPT-4,也接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。
具体来说,分为三步:
让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
标注员扮演代码审查员的角色,写下他们对这些bug的评论。
用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。
![](http://k.sinaimg.cn/n/sinakd20240628s/30/w950h680/20240628/cde2-b2d3be9ea653f9df777939761609cfb7.png/w700d1q75cms.jpg)
在具体训练过程中,研究人员还玩了点花样。
比如不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。
思路有点像GAN的左右互搏,只不过生成器这个位置是人类来充当的……
最后,OpenAI还使用了一种“强制采样束搜索”(FSBS)的技术,允许CriticGPT在生成评论时既能保持全面,又能减少“幻觉”和“鸡蛋里挑骨头”现象。
具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。
通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。
![](http://k.sinaimg.cn/n/sinakd20240628s/641/w1000h441/20240628/d27e-d440d57416194a0e92d23611f6449e6b.png/w700d1q75cms.jpg)
等一下,推理时搜索,这不正是和传闻中的Q*一个思路?这次居然写到了论文里。
可能是看外部团队按这一思路搞的研究已经够多了,就不再藏着掖着了。
说回CriticGPT,取得了哪些结果呢?
在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率达75%以上。
在评估自然出现的bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
CriticGPT的评论被认为比ChatGPT更全面,更少出现“幻觉”和无关紧要的挑剔。
在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。
不过CriticGPT也不是十全十美,它也会有“幻觉”问题,指出一些实际上不存在的问题。
目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的“幻觉”。
![](http://k.sinaimg.cn/n/sinakd20240628s/36/w1000h636/20240628/9634-319ee7d950034090800c8611dbb41901.png/w700d1q75cms.jpg)
RLHF的上限不再是人类
对于CriticGPT,负责这项研究的Jan Leike也补充了他自己的一些看法。
![](http://k.sinaimg.cn/n/sinakd20240628s/672/w1000h472/20240628/2ef5-0f185aad8cfb665facab93e74ba762a9.png/w700d1q75cms.jpg)
RLHF是创造出ChatGPT的核心技术之一,但隐患在于人类能力就是RLHF的天花板。
当需要AI去解决人类无能为力的任务时,人类给不出相应反馈,AI也就无法改进了。
CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,也就是用弱模型监督训练更强的模型,终于有希望了。
![](http://k.sinaimg.cn/n/sinakd20240628s/703/w1000h503/20240628/faef-075fbdef9dad244a9823f6f2ec05f1fa.png/w700d1q75cms.jpg)
不过他也透露,目前CriticGPT并没有帮助人类显著提高艰难任务上的准确性,但是框架有了,只要有更好的预训练模型就能不断改进。
![](http://k.sinaimg.cn/n/sinakd20240628s/666/w1000h1266/20240628/e55c-9f50965d6a5d84c5a5c4dec7e6811384.png/w700d1q75cms.jpg)
为什么先从代码任务开始入手呢?
一方面,代码任务有现实意义,做出来的模型可以直接用上。
另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易评估CriticGPT发现的问题是否真实和重要。
CriticGPT在代码上训练,不仅能挑代码bug,还给1/4的ChatGPT生产数据挑出了问题。
![](http://k.sinaimg.cn/n/sinakd20240628s/4/w1000h604/20240628/bb2e-2dcb477bb061fc49cee2c06ba95929ec.png/w700d1q75cms.jpg)
最后,由于原OpenAI超级对齐团队已经解散,已经跳槽的Jan Leike插入了一条Anthropic招聘广告:
想做后续研究的请去隔壁。
也是让人不得不感叹硅谷是真的没有竞业协议。
![](http://k.sinaimg.cn/n/sinakd20240628s/727/w1000h527/20240628/d166-073d5cdb62b434027196258e1969f030.png/w700d1q75cms.jpg)
One More Thing
同日,谷歌发布了开源大模型Gemma 2,OpenAI赶紧甩出一条消息来狙击,这都第几次了。
![](http://k.sinaimg.cn/n/sinakd20240628s/396/w1000h196/20240628/a7a4-010418824ac010874dbab0564bf44da4.png/w700d1q75cms.jpg)
对于甩出来的不是Sora公测或者GPT-4o完整语音、视频模式,也有很多人不满。
有网友提了个更好的主意:
做个ReleaseGPT,专门用来发布承诺好的更新吧。
![](http://k.sinaimg.cn/n/sinakd20240628s/431/w1000h231/20240628/8712-12b78ec32b9661a8cad12dc93288827c.png/w700d1q75cms.jpg)
不过这次OpenAI久违地放出了论文,也还算有一些诚意。
论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
参考链接:
[1]https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
[2]https://x.com/janleike/status/1806386442568142995
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有