研究称弱智吧成最佳中文AI训练数据：8项测试第一，远超知乎豆瓣小红书_

【#研究称弱智吧成最佳中文AI训练数据# ：8项测试第一，远超知乎豆瓣小红书】弱智吧登上正经AI论文，还成了最好的中文训练数据？？使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。这项研究来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。论文中的Ruozhiba就是指百度贴吧弱智吧。

这项研究起初为解决中文大模型训练中的诸多问题：

中文数据集很多是从英文翻译过来的，没有很好地契合中文的语言习惯和文化背景

不少数据集是用AI生成的，质量难以保证，容易出现事实性错误

即使是人工标注的数据集，也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点，团队从中文互联网的各种知识源头直接收集数据，比如知乎、豆瓣、百科、小红书等，经过一系列严格的清洗和人工审核，打造成高质量、多样化的中文指令微调数据集COIG-CQIA。

除了探索不同数据源的作用，团队还专门从中抽取出一个精华子集CQIA-Subset。

在众多数据来源中，无厘头的弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集，经过人工审核后，最终留下了240组指令-回复数据对。

分别用各种数据集训练零一万物Yi系列开源大模型，在BELLE-Eval测试集上使用GPT-4评分得到结果。

在规模较小的Yi-6B模型上，纯弱智吧版本总分排名第三，还不算太突出。

到了Yi-34B，弱智吧版本表现就一骑绝尘了。