近两年,以AI大模型为代表的新一轮信息技术浪潮已呈燎原之势,波及人类社会生活的每一个角落。金融领域对于AI大模型的思考与认知也在全面展开且逐步深化。AI大模型从何而来?它究竟是如何工作的?它为什么有那么突出的能力表现?它有什么明显的缺点?这些问题萦绕在身处AI大潮里的人们脑海之中,期待明确的答案。
AI大模型从哪里来?
提起AI大模型,可能很多人马上联想到DeepSeek。的确,DeepSeek是一个非常优秀的AI大模型,而且出自我们本土团队之手,值得骄傲。不过,它并不是世界上第一个AI大模型。AI大模型的历史,可以上溯到2012年,人们开始利用AI技术来处理语言问题。语言问题固有的高度复杂性,使早期的研究进展十分缓慢。直到2017年Google公司的研究人员提出了Transformer架构,才让业界看到了用AI技术解决语言问题的曙光。而真正的临门一脚,来自2022年OpenAI公司在比尔·盖茨的大力支持下,推出的ChatGPT(GPT 3.5)。这个AI模型展现出的语言能力,给人们带来的震撼是前所未有的。与此同时,ChatGPT的参数规模,相比之前的AI模型,一举提高了几百倍。“大力飞砖”带来了性能的一飞冲天。自此,“规模法则(Scaling Law)”成为学术界和产业界共同关注的焦点。大模型的“大”字,也让普通百姓津津乐道。
ChatGPT的横空出世,带领人类走入了大模型时代。一时间国内外出现了大量AI大模型,国外的包括GPT(OpenAI)、Claude(Anthropic)、Gemini(Google)等,国内更是“百模大战”,文心一言(百度)、千问(阿里)、豆包(字节跳动)、Kimi(月之暗面)、元宝(腾讯)、星火(科大讯飞),以及最近火出圈的DeepSeek(幻方量化)等。这些模型都拥有共同或者相似的能力,对话、写作文、写报告、写总结、吟诗作赋,甚至写代码、解数学题,让人们充分感受到了AI大模型所带来的好奇心满足与心灵震撼。
AI 大模型是如何工作的
AI大模型,严格意义上讲,应该叫AI大语言模型(下面简称大模型),是一种输入和输出均为语言的、高度复杂的软件系统。它能够“理解”和“消化”输入的语言,从中提取人类的用意,并由此生成和输出符合人类意愿和需求的语言对象(文章、报告等)。那么,它是如何做到这一点的呢?
简单地说,大模型通过计算某种特定的概率,来实现对于语言本身及其内容含义的认知。换句话说,大模型本质上是一个概率模型。你可以把它看作是某种概率分布(只不过是参数动辄上千亿且极度复杂的概率分布)。作为概率分布,大模型可以赋予每一个语句(字词的组合)一个概率值,并借此来体现其对语言的理解。举个例子,大模型认为“猪很胖”这句话语法通顺,同时语义正确,因此大模型赋予这句话的概率就很高;如果是“猪胖很”,语法正确都做不到,大模型赋予的概率会很低;那么“猪很轻”呢?这句话一方面的确语法正确,但其语义与事实并不吻合,大模型给出的概率也不会高。由此可见,大模型对语言的理解和把控,与我们人类迥然不同!我们依靠的是从小形成的感觉,大模型则比我们“理性”得多,它依靠的是严格的概率计算。
既然概率计算是大模型的语言处理机制核心,也就不难理解大模型的语言生成是以概率计算为基础了。例如,当大模型面对“猪很”这半句话时,它根据什么来补足下面的话呢?理论上讲,我们可以补上去的字有很多。而最终决策的依据,当然是概率计算的结果!如果补“跑”或者“飞”,很明显不合适。“猪很跑”或者“猪很飞”,这两句话连语法正确性都没有做到,概率一定很低。然而,如果补“胖”和“轻”,得到“猪很胖”或者“猪很轻”,这两句话的语法正确性问题都得到了很好地解决。但是,在语义方面仍然存在差异。按照常识,“猪很胖”是符合逻辑的,而“猪很轻”则不大合理。因此,补“胖”字的概率,在各种选择当中相对较大,“猪很胖”就被生成出来了。
既然是算概率,那么大模型在生成语言时,自然带有某种随机性。例如,“猪很胖”的概率很高,“猪很重”的概率也不会低,“猪很精”同样也是语法正确、语义正确。因此,大模型的遣词造句并不单调,甚至比一般人更加丰富多样,给人以文采飞扬的感觉。AI大模型会有效地利用这种随机性,通过适当控制字词的选择策略,实现“分门别类”和“条分缕析”地“侃侃而谈”。相信大家都已经实际感受过大模型在回答问题和文章撰写时的“思路广阔”与“全面周到”。这实际上来源于其作为一个概率模型,生成结果中天然蕴含的随机性,以及大模型对这种随机性的精巧把控。
AI 大模型为什么有那么突出的能力表现
为什么大模型的语言能力强到了令人惊讶的程度?它似乎无所不知,而且语言丝滑流畅,完全感觉不到它不齿于人类。我们从它的训练过程可以略知一二。大模型的训练,大体上分为两个阶段。第一阶段,称为Pre-train。这个阶段,海量的语料充当了训练数据,各类书籍、各类知识库、各类网络文字等大模型“看”过的文字,恐怕比世界上最博览群书的人,还要多好几个数量级。Pre-train达到的目的,是让机器可以具备人类的基本语言能力。打个比方,就好像六七岁的孩子,尽管不具备专业知识和专业技能,但是已经可以使用语言同外界顺畅交流了。第二阶段,称为Post-train。顾名思义,该阶段和Pre-train阶段相对,在其之后进行,目的在于为大模型赋以领域知识和专业技能。例如通过“蒸馏”(Distillation)训练来丰富大模型的领域知识;通过“对齐”(Alignment)训练来让大模型能够在人类的问题面前对答如流;通过“思维链”(Chain of Thought)训练来强化大模型的推理技能等。正是数量巨大的训练数据及严格系统的训练流程,造就了大模型惊人的知识面和推理能力。当然,除了训练之外,大模型在架构方面也有很多创新举措,也对其能力提升起到关键作用。例如专家混合架构(Mixture of Experts),将输入数据分配给不同的子模型(“专家”),把各子模型的输出融合,形成最终的输出。这样做能够让每个子模型处理其最擅长的数据类型或者任务,从而提高训练和推理效率。
AI大模型会犯错么?
AI大模型是语言模型。尽管它的语言能力基本达到了人类的水平,甚至在某些方面(例如吟诗作赋)超过了一般人群,但是这并不等于它不会说错话。大家在DeepSeek等大模型的使用过程中,或多或少地都体会了其“幻觉”的普遍存在。大模型的所谓“幻觉”,就是指它在输出语言的时候,出现了各种错误。这些错误,一方面给用户带来了困扰,另一方面降低了大模型应用的安全系数。
作为语言模型,大模型的底层逻辑只关注字词之间的相关性和搭配关系,对于语句的内容含义,实际上并没有建立起人们想象当中的认知,更没有严格清晰的对错判定。例如,当大模型论述古建筑保护问题时,它可能会输出如下语句“古建筑保护是地方政府需要予以高度重视的问题。依据相关国家标准《GB/T 20134 国家古建筑保护总体技术标准》(以下简称《标准》),我们应该……”。看起来有理有据的论述,实际上蕴含着巨大的错误。这里所提到的“《标准》”,压根儿就不存在!子虚乌有的东西,怎么会被大模型“振振有词”地说出来呢?正如我们前面提到的,大模型依靠概率计算来组合它“见过”的字词并控制语言输出。如果它“见过”GB/T、数字、国家、古建筑、保护、总体、技术标准这些词,并且读到过大量与标准名称类似的语句,则完全有可能给语句“《GB/T 20134 国家古建筑保护总体技术标准》”赋予很高的概率,大模型对于语法正确和内容合理有非常敏锐的感觉,但是对于内容的真实性并没有保证。再比如,谈到与血液流失有关的话题,大模型可能会同时输出“失血400毫升,人体健康将面临巨大伤害”“献血400毫升,人体健康不会受到太大影响”两个语句。这两个语句的内容,明显是相互矛盾的。事实上,大模型记忆的内容存在相互矛盾,并不鲜见。其训练语料来源的广泛性,客观上造成了输入内容缺乏必要的鉴别和监管,导致矛盾的出现毫不奇怪。大模型只负责记忆和存储字词等语料元素,并通过训练时确定的内部参数来计算概率,确定语料元素间的搭配关系。它不懂得“整合”与“反思”所记忆的内容,去粗取精,去伪存真,形成真正的意识。
(此文刊发于《金融电子化》2025年4月上半月刊)


财经自媒体联盟

4001102288 欢迎批评指正
All Rights Reserved 新浪公司 版权所有