学术观点丨清华大学陶建华教授：大模型技术的演进与启示_

文 / 陶建华

1 大模型时代的到来

人工智能大模型是指通过预先在海量数据上进行大规模训练，而后能通过微调以适应一系列下游任务的通用人工智能模型，被看作是一项人工智能技术迈向通用智能的里程碑式进展。传统上，人工智能模型往往依赖大量有标签数据，而且一个模型一般只适用于单一场景，人工智能的研发和应用成本高，场景适应能力弱。近十年来，人工智能模型的参数量正在迅速变大，仅仅2021—2022年间，模型参数量增加了10倍以上，以 Transformer 预训练为基础的大模型，可以通过“大规模预训练+微调”的模式，在无标签数据上进行学习，降低了对标注数据的要求，不仅使模型的性能相较于以往人工智能方法带来了突破性提升，而且随着数据量增大和模型的进一步变大，模型的性能还会不断增强，甚至出现量变到质变的能力变化。

从大模型的发展历程来看，在“大数据+大算力+强算法”的加持下，人工智能大模型进一步通过“提示+指令微调+人类反馈”方式，可以实现一个模型应用在很多不同领域。到GPT-3时甚至可以不用做微调，也可以一个模型完成多种不同的任务，展现了很强的自然语言生成能力和通用性。大模型因此被喻为就像PC时代操作系统一样，成为各种人工智能应用的关键基础模型，可引导形成人工智能应用开发的新范式。大模型解决了过去人工智能应用的碎片化问题，以往一个模型只能做一件事情，而现在通过一个大模型即可以实现更多的任务。

2 大模型技术的前世今生与未来

人工智能大模型最初是从语言模型发展起来的，是为了解决语言的特征提取问题。在早期统计机器学习时期，自然语言处理常用Ngram等语言模型；而在深度神经网络时期，为了解决特征的表征，使其能在深度神经网络里得到有效训练，最早提出了Word2vec词向量方法；为了进一步利用深度神经网络挖掘文本中的上下文关系，进一步提出了循环神经网络或卷积网络的特征提取方式。2018年，Google提出了一种基于 Transformer架构的双向预训练语言模型（BERT），它采用多层Transformer架构注意力机制，可以挖掘文本中任意词之间的关系，从而可以建模更加复杂和长距离的语义关联信息，相对于循环神经网络，这一模型还解决了大规模并行化训练的难题。Google提出的这种预训练语言模型，实质是一种填充式的机制，而与 Google提出的填充式预训练语言模型发展思路所不同，OpenAI公司则选择了另一条发展路径，即生成式自回归语言模型（GPT系列）发展模式。研究表明，GPT模型更容易适应下游任务，具有更强的通用能力。ChatGPT正是基于GPT系列的生成式自回归语言模型而发展出来的。

以往自然语言处理在处理文本中词与词之间的关系时，往往难以对长距离词间关系进行有效建模，而且文本中各个语义单元相对独立，缺乏高层语义之间的相互联系。大模型用Transformer注意力机制不仅能够挖掘文本中任意词相互关联关系，还能够挖掘长距离高层次语义关联信息，因而大模型能够更有效获取知识和知识关联，这为大模型能够进行高性能的内容生成提供了重要基础。

从GPT模型的发展历史看，GPT-1主要是实现了基于Transformer架构的自回归预训练语言模型初始版本，其特点是可利用大量无标注数据进行无监督预训练，在不改变基座模型的情况下，仅通过对少量标注数据进行任务相关的输入变换，然后进行有监督微调就可以适用于不同的下游任务。到GPT-2时，模型和参数规模变得更大，其特点是通过Zeroshot Learning的方式就可以使模型适用于不同的下游任务，使大模型展现出了一定的通用性，但性能依然有限。到GPT-3，模型规模和数据规模达到千亿量级，能够在没有任何梯度更新和微调情况下，仅通过提示词或少数样例即可以很好地完成指定的各种不同任务，性能甚至超过当时最好的专用模型。GPT-3可以从大量信息提炼出超脱语义的信息，包括语义片段的信息，以及一些各个语义层次之间的关联信息，但其缺点就是会输出无用、有害信息，且无法对齐人类的偏好。因此，在GPT-3之后，OpenAI公司还提出一种InstructGPT模型，它采用了有监督微调和人类反馈的强化学习RLHF方法，使得模型能够更好地遵循用户的意图，生成的内容和人类的喜好进行有效对齐。ChatGPT则是在GPT-3.5基础上发展而来，GPT-3.5在GPT-3的基础上加入了代码、思维链和多轮对话数据进行训练，代码和思维链的训练使得模型具有更强的逻辑推理能力，同时，ChatGPT也采用了InstructGPT的强化学习和微调模式，这一系列的优化形成了ChatGPT很强的语义理解、多轮对话和较为通用的问答能力。

2023年3月OpenAI发布了多模态人工智能大模型GPT-4。GPT-4具有更强的文本和图像理解能力，允许输入文本长度达到历史最长，且允许用户定制模型的风格和行为，在很多任务上达到人类水平，有时甚至超越人类表现。

目前，大模型技术已应用于很多场合，如：微软已将GPT-4整合到其office套件中，打通各个办公软件，实现智能化的协同办公；同时将GPT-4整合进Bing搜索引擎，以GPT-4+搜索的方式实现了更加直接和智能的信息获取方式，显著提升了获取信息的准确性、可靠性和综合性。

人工智能大模型以其很高的性能和多种任务的通用能力，将会建立一种人工智能应用的新范式，极大改变人类社会的生活和生产模式，其典型应用场景包括：

• 大模型+传媒。大模型可以帮助实现智能化新闻整编，提升新闻的时效性，将传统劳动性的新闻采编工作自动化，更快、更准、更智能地生成内容。

• 大模型+影视。大模型可以极大地拓宽影视创作素材，可以根据大众的兴趣量身定制影视内容，从而更有可能吸引大众的注意力，获得更好的收视率、票房和口碑。同时大模型可以为剧本创作提供新思路，激发创作者的灵感，开拓创作思路，缩短创作周期。

• 大模型+营销。大模型可以打造虚拟客服，助力产品营销。

• 大模型+娱乐。大模型可以加强了人机互动，增加互动的趣味性和娱乐性，激发用户参与热情。

• 大模型+军事。大模型可以增强军事分析和决策能力，实现快速准确的作战评估、作战任务规划和执行、战术决策支持、改进态势感知等。

事实上，大模型的应用场景远远超出上述范畴，在社会、经济、安全、医疗、健康等各个领域都将会发挥重要作用，它的发展给人类带来了非常强大的助推力，让数字世界和现实世界的共生变得更为便捷、更为有效。

3 大模型技术存在的问题与对策

尽管大模型技术对人工智能应用起到了重要推进作用，但其依然存在一系列关键问题。首先是大模型的可信性问题。目前，大模型的主要应用侧重于人工智能内容生成（AIGC）领域，其生成的内容虽然符合语言规范，流畅性和逻辑性都很好，但内容的真实性经常存在问题，现有大模型技术尚不具备对所生成内容可信性的评估能力。其次是大模型的可解释性问题。大模型本质还是深度学习的进一步延伸，其很多能力和机理依然缺乏有效解释。

针对大模型的可信性问题，目前已有一些探索性的工作，如：通过一些正向推理或者反向验证方法实现自我验证，通过正向推理生成侯选的内容，再通过反向验证，来进一步验证生成的内容是否满足条件。通过正向推理和反向验证方法不断进行自我评估，是对大模型生成内容可信性的重要探索。针对大模型的可解释性方面，已有一些工作试图通过一些探针、对抗攻击、模型可视化等技术来解释大模型的工作过程。此外，大模型正在与显性的知识进行融合，通过对大模型的训练数据进行更多的标注处理，或在大模型预训练或微调阶段引入知识图谱，或在大模型文本生成阶段与知识图谱推理进行结合，均可以提升大模型知识的准确性，并使大模型具有更强的可解释推理能力。

同时大模型在更为复杂场景下的鲁棒性和泛化能力方面也值得探索，大模型并不能适用所有场景，它本质上还是依赖训练数据能覆盖的场景。例如，我们覆盖的场景是一个复杂的小场景，在场景规模数据不大的情况下，不得不去依赖对它进行微调。但是，通过不同细分领域划分成不同类别进行数据有效的筛选、标注，以及相应的微调技术就能使得大模型具有较好的在不同小场景、场景较复杂情况下适用的能力，提升它的可靠性。

此外，大模型脱胎于大数据、大算力，对资源要求很大，训练和部署成本很高，以GPT-3为例，它需要数千GB显存开销，一次训练需要数百万美元。因此，低功耗和高性能的人工智能模型构建，以及新型的人工智能计算芯片的研制，已迫在眉睫。

大模型也会带来一系列社会问题，如：大模型生成的内容，存在一定的伦理、法律、社会安全、价值观等方面的隐患，需要进行针对性政策方面的探索。

4 如何应对大模型技术的挑战

应对大规模技术的挑战，首先，要在抓紧推动大模型技术研发的同时，鼓励交叉原始创新，构建新质人工智能技术。在认识到大模型带来重要机遇的同时，也要充分认识到大模型依然存在一系列关键技术挑战，应着力推动人工智能与脑科学、认知科学的交叉创新研究，力争从人工智能的“可解释性”“高可靠性”和“低功耗性”等方面形成重要突破。

其次，加强人工智能安全技术和伦理治理机制建设。大模型的快速发展，迫切需要加大力度进行人工智能安全检测与防御技术的研发与部署，包括加强针对大模型的数据隐私窃取和保护的技术研发与制度建设。加强大模型生成内容的技术审核与规范构建，构建人工智能生成内容的知识产权保护机制，并进一步强化科技伦理教育，建构用户使用规范。

（参考文献略）