可翻译语言的模型也会“胡言乱语”？大型多语言模型BLOOM拥有1760亿个参数，可有效避免偏见产生_

在计算机领域，作为算法的其中一类，大型语言模型的用途日益广泛。它可以学习数十亿个单词和短语之间的统计关联，并完成语言翻译、摘要生成、文本分类和问题解答等任务。

这类模型采用了一种名为“神经网络”的灵感架构，通过不断调整那些被称为参数的值来执行模型训练，并以抹去文字的方法，完成现实与预测结果之间的比对。

完成训练后的模型不仅可以自动生成美好的诗歌，还能正确回答很多生活中会遇到的小问题，在一定程度上给予了人们较大帮助。

不过，目前的语言模型并没有感知语言意义的能力，因此，模型在执行任务的时候，可能发生“胡言乱语”的情况。更令人担忧的是，模型在选择源头学习数据时存在局限性，会给之后的工作带来严重的伦理缺陷或实践缺陷，比如泄露私密数据、提供错误信息、助长虐待或偏见等。因为大多数此类模型由大型科技公司开发，其内部工作原理并不对外展示，所以，想要解决上述问题并不容易。

（来源：Pixabay）

为了克服这些难题，打破大型科技公司对自然语言处理的垄断、减少可能出现的有害影响，6 月 17 日，一个名为“BigScience”的国际合作项目推出了 BLOOM 模型的早期版本，希望它能有助于减少人工智能语言模型的有害输出。

BLOOM 模型是第一个大规模多语言模型，拥有 1760 亿个参数，并由数百名研究人员完成，其中大部分是学者，包括哲学家、法律学家和伦理学家，也有一些来自 Facebook、谷歌等公司、以个人身份参与工作的员工。该模型的计算训练工作得到了价值 700 万美元的公共资助，从规模来看可与 OpenAI、谷歌等公司开发的语言模型相媲美，但它将是开源的。

通常情况下，包括 Reddit 网站在内的大多数语言模型都直接从网络上抓取语言，而语言模型的好坏却取决于其基于的数据集。对此，Hugging Face 公司的机器学习研究员雅辛·杰尼特（Yacine Jernite）认为：“选择模型需要学习的文本是一项非常关键的任务。”

为了选择文本资源，研究人员参与了非洲自然语言处理社区 Masakhane、 LatinX in AI、Machine Learning Tokyo 等在内的一系列社区团体研讨会。此后，BigScience 的研究人员从 500 个来源中精心挑选了规模为 3410 亿字的数据集中近三分之二的内容。

其内容不仅包括 Nature等文章，还包括语义学者（Semantic Scholar）这类人工智能支持的学术出版物搜索引擎。杰尼特表示：“我们希望确保那些与他们的国家、与他们所说的语言以及与数据密切相关的人能够参与进来，共同选择进入模型训练的语言文本。”

研究人员为解决语言模型存在的缺陷付出了诸多努力。首先，他们充分利用现有的计算能力，在使用多语言网络进行抓取的同时，对数据进行了质量过滤，还完成了隐私编辑工作。其次，他们还通过减少网站的过度呈现，来克制模型中可能产生的偏见与歧视。虽然 BLOOM 模型不可能完全消除偏见，但在确保提供多元文化和高质量资源的基础上，模型的整体质量可以得到很大的提升。

作为一个拥有人工智能模型和数据集的开源平台的公司，Hugging Face 的联合创始人托马斯•沃尔夫（Thomas Wolf）评价说：“BLOOM 模型背后的代码和数据集是开放的，所以研究人员可以试图了解有害行为的根源，这可能有助于未来迭代版本的改进。”

（来源：Hugging Face 官网）

同时，在模型评估方面，研究人员除了比较 BLOOM 模型与其他模型在回答问题方面的能力，还设置了更为多样化的指标，包括语言模型产生特定刻板印象的强度、语言模型在特定语言下产生的偏见大小等。布朗大学自然语言学习研究员艾丽·帕弗里克（Ellie Pavlick）认为：“由于这个模型已经被训练成多语言，因此它可能对语言有着更深的理解，有助于其能力延伸至各类任务。”

目前，BLOOM 模型正处于三个月训练期的最后几周。训练结束后的模型可供研究人员下载，并开展进一步的实验和新数据训练。

需要说明的是，第一，下载并运行该模型需要很大的硬件容量。第二，为允许实验室跨服务器共享模型，BigScience 还将发布更小且更少的硬件密集型版本，完成分布式系统的创建。第三，近期 Hugging Face 公司还会发布一款应用程序，帮助使用者在不下载的状态下查询 BLOOM 模型。第四，在使用该模型之前，使用者需要签署一份不断发展的法律许可，不得用模型来服务不当目的。

目前，BLOOM 模型已在多领域得到了应用。它既可以作为探索人工智能的工具，又可以从庞大驳杂的历史文本中提取信息，还可以完成一些生物学方面的分类工作。