2024年,大模型市场可谓热闹非凡,一方面,各大厂商纷纷将目光投向具体应用场景,推动行业定制化的大模型加速落地,这些模型正逐步渗透到金融、医疗、教育等多个关键行业中,为解决专业领域的复杂问题提供了方法。另一方面,关于大模型未来发展路径的讨论持续升温,围绕商业化落地、大模型与小模型的选择、应用的方向等成为业界关注的重点话题。
那么相比于2023年,2024年大模型行业发生了哪些变化呢?
理念上:从月亮到六便士,市场越来越关注投资回报
2024年大模型行业的一大变化就是市场越来越务实,越来越重视商业化落地程度。时间回到一年前,中国创投圈洋溢着久违的亢奋,从线上的媒体、社区,到线下咖啡馆,每个人都在谈论着OpenAI、大模型以及对未来AI世界的畅想。许多已功成名就、处于半隐退状态的明星创业者,如李开复、王小川、王慧文等,也不甘心错过这次难得的技术浪潮,再次出山。
而现在这股亢奋的情绪开始退潮。不少投资人的耐心逐正在逐渐被消耗,与企业之间的关系产生了裂痕。今年11月,大模型明星创业公司“月之暗面”与前投资人“反目”,走到仲裁的事件在业内引起广泛关注。
根据桔子IT数据,今年以来(1月1日~12月5日),国内AI领域发生439起融资案例,总融资金额超564亿元,大概是去年的80%。粗估来看,今年以来AI领域月均融资金额不到50亿元。并且机构缩减投资是普遍现象。据清科研究中心不完全统计,今年上半年国内对外投资活动的早期投资、VC、PE机构数量同比分別减少23.9%、19.2%、25.2%。
因此如果说2023年,各家大模型厂商们都在专注于打磨模型参数、模型性能、榜单排名等各个方面的能力,争相渴望成为“中国的OpenAI”,那么2024年,越来越多的人变得更加务实,开始更关注落地场景和商业化。
尤其是进入今年下半年,整个行业的风向更加微妙。市场逐渐对大模型祛魅,资本也回归理性,行业的两股势力也发生了站位的转换。
一边是阿里、字节等巨头投入的动作明显加快,收编大模型创业公司的核心人才,推出一系列AI产品;一边是创业公司开始重新评估自身的路线,国内“AI六小虎”有两家逐步放弃预训练模型,业务重心转向AI应用。
“AI大模型(赛道),将只剩下10家企业扮演重要角色。”中国工程院外籍院士张亚勤曾表示。这几乎是行业的共识,最后的胜利属于少数的玩家。
大模型最终会进化成什么样,还不确定,但可以确定的是,大模型浪潮下,技术仍在迭代,场景仍在惊艳,商业化也始终在探索的路上。
路线上:从堆算力到强化逻辑学习,从大模型到小模型
2024年大模型行业的第二大变化就是技术路线上不再仅仅是堆算力,而是探索强化学习、知识计算、符号推理、类脑计算及其他新型路径。其中投入更小,更垂直的小模型不断涌现。
近年来,大模型发展迅速,以其出色的性能,在语音识别、自然语言处理、图像识别等多个领域取得了显著成果。这些大模型通过深度学习技术,能够处理海量的数据,并从中提取出有价值的特征和信息,为各种应用场景提供强大的支持。特别是在金融、医疗、教育等行业,大模型的应用已经逐渐深入到核心业务领域,成为推动企业创新发展的重要动力。
然而,大模型的发展也面临着一些挑战。首先,大模型的训练和推理需要消耗大量的计算资源,这使得其成本高昂,且只有少数大型企业能够承担。其次,大模型在处理特定领域的问题时,往往需要大量的数据进行微调,以适应不同的应用场景。此外,随着大模型规模的不断扩大,其可解释性和隐私保护问题也日益凸显。
并且单纯扩大规模,存在幻觉、效率、可信、安全等瓶颈,现在让一个大模型做一个奥数题和计算2+2这样简单的算术题,需要的运算量、运算次数是一样的。所以,我们能否把大模型做得更安全、更高效,更好解决现在存在的一些瓶颈?
需要指出的是本轮的AI浪潮,核心其实是LLM,即语言大模型——参数量数十亿乃至上百亿,需要专门的GPU集群,训练成本极高——真正能跑出来的产品,无一例外,都是用真金白银堆砌起来的。
但AI显然是要普及的,封闭、资本密集的大模型并不符合这样的大趋势。于是乎,开源的小模型成为了新的热点——大模型的体量,使得它在手机、物联网设备等小型终端上部署起来颇为麻烦,但小模型则不同。尤其是那些要求快速反应的领域,比如语音和图像的识别处理,小模型的处理效率也会更快——某种程度上说,小模型相当于是大模型的精华版。
相较于大模型,小模型在特定场景下展现出了独特的优势。一是小模型具有较低的计算复杂度和资源消耗,这使得其能够在资源受限的环境下运行,如移动设备、边缘计算节点等。二是小模型往往针对特定任务进行优化,因此在某些应用场景下能够取得与大模型相近甚至更好的性能。三是小模型的可解释性较强,更易于被用户理解和接受。以openai的GPT-4o mini来说,成本下降的情况下,质量反而更高,这就是数据集和训练方式改变后带来的突破。
应用上:从对话到多元应用,AI Agent、具身智能等涌现
2024年大模型行业的第三大变化就是应用不断迭代。根据lifearchitect.ai数据,截至目前,全球总共有467个大模型。新技术不断涌现,行业竞速赛愈演愈烈,大模型厂商都在不断迭代升级,旨在离AGI更进一步。 进入到今年,除了应用上的百家争鸣,一个明显的变化在于,以ChatGPT为代表的大语言模型局限性日益显现。
例如,他们只能处理文本领域的任务,无法与物理和社会环境进行互动;虽然大模型语料库已经十分丰富,但关于人类的价值观的文本,他们并不具备理解能力。
在此前提下,OpenAI今年9月推出的o1系列模型重点在于会思考。彼时,OpenAI CEO奥特曼对o1信心满满,“我认为这次 o1 模型发布最重要的信息是,AI 发展不仅没有放缓,而且我们对未来几年已经胜券在握。”
与GPT系列模型不同,o1系列模型有更强大的“思路链”,模型会在思考后回答用户问题,输出高质量的内容,而非迅速回应无效回答。此外,o1系列更擅长推理,推理能力大幅提升,特别是在奥数、编程等领域展现出了优势。
行业风向标的新动作,引发国内大模型厂商的追赶。 11月16日,月之暗面公布了k0 math;11月20日,Deepseek上线DeepSeek-R1-Lite大模型;11月27日,昆仑万维推出“天工大模型 4.0” o1 版……无一不在强调大模型的逻辑思考能力。
与此同时,到了今年下半年,几乎人人都在谈“AI Agent”(人工智能代理,也可称为“智能体”)。在海外市场,微软、苹果、谷歌、OpenAI、Anthropic等科技巨头纷纷公布相关进展;在国内市场,百度、阿里、腾讯、智谱、荣耀、联想等一众厂商的智能体平台也纷至杳来,一场围绕“AI Agent”的争夺战正悄然开启。
所谓“AI Agent”,OpenAI将“AI Agent”定义为以LLM为大脑驱动,具有自主理解、感知、规划、记忆和使用工具的能力,能自动化执行复杂任务的系统。不同于传统人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。
举个简单的例子,如果用户想要进行一次家庭聚餐,LLM可以为其提供就餐地点和店铺相关信息提示,而AI Agent不仅能够提供择店铺建议,还能基于用户预算搜索菜系和店铺,执行预订操作,并将行程添加到日历,还可以发送行程提醒。
有观点认为,AI Agent的出现是为了解决LLM在具体应用场景中的局限性。LLM虽然具备了一定的智能,能够生成文本、图片和视频等内容,但其功能相对有限,无法独立完成复杂的任务。AI Agent作为大模型的上层应用,能够通过感知环境、进行决策和执行动作,帮助大模型实现更多的功能,从而更好地为各行各业赋能。
此外具身智能也是大模型应用的一大分支。所谓具身智能是指将人工智能(AI)融入机器人等物理实体,赋予它们具有像人类一样的感知、学习和与环境动态交互的能力。在生活中,可感知周边环境的智能扫地机器人、已进入路测的自动驾驶汽车,都可被视为具身智能的雏形,而人形机器人则是具身智能最理想的载体。
以上种种,其实都可以视为行业在为大模型寻找最适合的“杀手级”应用。
结语:朝着AGI的星辰大海,不断前进
综上,无论是理念的变化,亦或是路线的选择,还是应用的迭代,最终的目的就是一个——走向AGI(通用人工智能)。
所谓AGI,即能够执行任何智能任务的人工智能,是人类智慧的延伸,也是未来科技的灯塔。它不仅仅是对特定任务的自动化,而是对人类智能的全面模拟,包括学习、推理、规划、感知、语言理解和创造力等。在这条道路上,我们正逐步攻克技术难题,从深度学习到神经网络,从自然语言处理到机器视觉,每一次技术的突破都是朝着AGI目标迈进的一大步。科学家们在算法优化、数据集构建、硬件加速等方面不懈努力,以期构建出更加智能、更加灵活、更加接近人类思维的AI系统。
尽管挑战重重,但人类对知识和智慧的追求从未停止。笔者相信,随着技术的不断进步和人类智慧的不断积累,AGI终将成为现实。它将帮助我们解决复杂的问题,提高生活质量,甚至开启人类文明的新篇章。而在这个过程中,我们不仅要追求技术的极致,更要思考如何让技术更好地服务于人类,如何确保AGI的发展能够促进社会的公平与和谐。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有