【#研究称弱智吧成最佳中文AI训练数据# :8项测试第一,远超知乎豆瓣小红书】弱智吧登上正经AI论文,还成了最好的中文训练数据??使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。
在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。论文中的Ruozhiba就是指百度贴吧弱智吧。
这项研究起初为解决中文大模型训练中的诸多问题:
中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题
为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。
除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset。
在众多数据来源中,无厘头的弱智吧成了最特别的一个。
由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。
分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。
在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。
到了Yi-34B,弱智吧版本表现就一骑绝尘了。
只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。
另外,在安全评估上弱智吧版本也能排上第二。
对于这类现象,研究人员在分析中也给出简单猜测:可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。
当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。
通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。(来源公众号:量子位)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有