行业观察｜大模型之战，除了低价还战什么？_

来源：财经杂志

下一阶段，大模型市场的焦点是厂商提供更完备的能力，为使用大模型的企业降低隐性成本，最终充分激发产业价值链条的正向循环

文｜吴俊宇

编辑｜谢丽容

近半年，大模型的推理算力价格正在快速下降。

今年5月，字节跳动旗下云业务——火山引擎率先把旗下主力模型“豆包Pro-32k”的输入价格降到了0.8元/每百万Tokens（直译为“令牌”），输出价格降到了2元/每百万Tokens。当时，这两个定价不到行业均价的10%。

用户使用大模型，先输出指令，再得到输出结果。Token是大模型推理算力的计量单位。一个Token可以是单词、标点、数字、符号等字符。就像电力用“度”计费、流量用“G”计费。

降价的原因是，大模型带来了新一轮的AI（人工智能）应用创新，但创新需要降低试错成本。火山引擎总裁谭待今年3月在硅谷发现，美国的AI应用创业火热，一些小团队很快就能拿到收入和融资。这种气氛如同2012年-2014年中国移动互联网创业。谭待判断，国内也会出现类似趋势，但前提是降低模型价格。

火山引擎这次降价搅动了市场。几家主要云厂商随后都把旗下主力模型价格降低了90%以上。各家Token消耗量都在快速提升。字节跳动的豆包大模型9月Token消耗量已是5月降价前的10倍以上。

短期内，Token消耗量快速增长，但目前却没有一家厂商能从中盈利。部分云厂商的管理层甚至焦虑“价格战打到了负毛利”。大模型推理算力原本毛利率在60%以上，但如今这部分业务由盈转亏。

一种担忧随之而来——大模型推理算力如果一直亏损，“价格战”的终点在哪里？

9月24日，谭待在“2024火山引擎AI创新巡展·深圳站”会后群访时对我们表示，欢迎同行降价，因为成本是创新的阻碍。这不是价格战，而是把Token降到合理价格。模型调用必须健康可持续，他有信心也有能力做到正毛利。目前，他更关注模型降价后的AI应用覆盖率。

豆包大模型是如何进行Token定价的？9月24日，火山引擎智能算法负责人、火山方舟负责人吴迪向我们复盘称，这个定价不是拍脑门，也不是对标同行，而是科学计算的结果——其中综合考虑了算力资源储备、市场未来用量、模型成本下降这三个变量。

吴迪认为，“反对降价的人，其实是对AI长期信心不足。只要有这几个变量的初始值，甚至可以测算出未来3个月-12个月的趋势。”

截至今年9月，豆包每天Token消耗量是1.3万亿。随着AI在各类应用中的渗透率不断提升，吴迪预期，2027年豆包每天Token消耗量会超过100万亿，是现在的100倍以上。推理算力收入会快速提升。

基于这个判断，云厂商要做好降价之外的其他准备。

模型降费不够，还得提升能力

推理算力价格下降，要先看市场大势。

算力消耗的大盘此时在剧变。国际市场调研机构IDC预测，2022年-2027年中国通用算力（CPU中央处理器为核心的算力）年复合增速16.6%，智能算力（GPU图形处理器为核心的算力）年复合增速33.9%。2022年-2027年，智能算力内部，训练算力占比会下滑到27.4%，推理算力占比将上升到72.6%。

今年9月，一家云厂商的管理层提到，2024年它们的推理算力消耗量已经超过了训练算力消耗量。

Token的降价逻辑，被认为不是软件的降价逻辑，更像电信运营商的提速降费。软件的主要成本是研发成本。企业亏损式降价竞争，会导致整个产业的潜在价值被破坏。

和谭待看法类似，一位头部云厂商高管今年9月也提到，大模型推理算力降价不该用“价格战”的竞争思维去理解。“价格战”是零和博弈，难以创造增量市场。大模型推理算力降价会做大市场蛋糕。在他看来，今天的手机流量资费和20年前相比，完全无法类比。

电信运营商从3G到4G提速降费，催生了一批新的移动APP（应用）。云厂商目前普遍在考虑更长远的问题——如何用降价催推动AI应用创新。

“现在价格不是瓶颈，关键是要把能力做好，这会是影响应用上量的重要因素”。在谭待看来，大模型只降推理价格远远不够，还要持续提升模型性能。

从“卷价格”到“卷性能”，这在火山引擎的产品策略中体现在两方面。

其一，提升大语言模型的吞吐速率。衡量吞吐速率的单位是TPM（每分钟的Token数）和RPM（每分钟请求数）。豆包大模型提供了800K的吞吐速率，这一吞吐速率处于行业前列。

简单理解，这就像3G网络下，手机只能完成收发消息、刷新闻资讯等简单工作；但在4G网络下，随着流量资费下降、网络速度提升，抖音、快手、王者荣耀等新应用会出现。

目前行业内其他模型的吞吐速率一般是100-400K（千字节）。原因是，防止服务过载或中断，并保证每个用户或组织公平调用模型。一般情况下，付费后才可以升级到800K以上的吞吐速率。

吞吐速率提升可以满足更多企业实际生产环境的需求。谭待以某科研机构的文献翻译、某汽车厂商的智能座舱、某教育公司的智能写作三个应用场景举例，三者用大模型的峰值吞吐速率分别是360K、420K、630K。提升吞吐速率，这些企业使用大模型的意愿才会提升。

其二，提供多模态（文字、图片、声音、视频等）大模型。火山引擎9月24日发布了豆包模型家族——包括视频生成模型、文生图/图生图模型、同声传译模型、语音识别/语音合成模型、声音复刻模型、音乐模型。

过去一年多，企业常用的仍是大语言模型——输入/输出的内容以文字和图片为主。这带来了数字人、知识库、客服问答、营销文案、平面设计、代码助手、智能助手等通用业务场景。

一个来自CIO（首席信息官）和CTO（首席技术官）的普遍反馈是，大语言模型会从非核心业务系统开始落地。在一些通用业务场景中，大语言模型的确带来了一定的提效作用。但大语言模型的文生文、文生图使用方式相对单一，这和2023年初大模型“横空出世”时天马行空设想的情景仍有落差。

随着视觉、声音模型开始大规模使用，企业会从中挖掘新的应用场景，更多AI应用创新的排列组合会随之出现——但这仍需要持续试错，也会经历先进入边缘业务系统，再进入核心业务系统的螺旋上升。

企业数字化转型的实际情况是，很多一线IT工程师会率先以个人身份体验新技术。2023年初大模型浪潮来临的初期，很多尝试在“整建制”的IT部门并非公司行为，而是个人行为。

吴迪对此建议，企业数字化部门可以专门组建一个开发大模型应用场景的小团队。由这个团队独立完成一些AI应用Demo（样品）。原因是，AI越强，单兵作战能力也越强。可以让有能力、有想法的人尽量去尝试。这个过程中会催生出很多意料之外的创新。

降完显性成本，再降隐性成本

企业使用大模型，既有显性成本，也有隐性成本。

显性成本包括，模型推理算力成本。目前，一些企业数字化负责人的观点是，使用大模型的显性成本的确在下降，但隐性成本不得不考虑。

大模型的隐性成本涉及方方面面。比如，大模型要与现有IT系统兼容；使用大模型要提前准备数据，进行数据治理；还要招聘一批懂AI的产品经理；最后应用开发还需要付出成本。

“即使模型彻底免费，我们也必须为之付出其他隐性成本。”一位保险公司IT负责人今年9月对我们直言，使用大模型的隐性IT成本，其实远高于显性IT成本，“不能拿着锤子找钉子，什么事情都想着通过大模型去解决。而是要根据投入产出比，把大模型融入到现有的IT系统之中。”

数据治理是必要的前期准备。企业用好大模型，要给大模型“喂”高质量的行业数据。但在“喂”数据前，又要做好数据清洗、标注、整理等工作。

数据治理像是资源分类，把企业内杂乱无章的原始数据（包括文本、图片、视频等）打标分类，整理成结构化数据。再喂给大模型，让它产出符合业务需求的高质量内容。

不做好数据治理，大模型容易产生“幻觉”（大模型由于数据错误等因素胡说八道）。吴迪在和企业交流时遇到了一些非常有远见的CIO和CTO，他们一年前就开始了数据治理。因为，他们认为“不管AI未来怎么变，整理好数据都是必要的。”

数据治理，有时要引入专业数据治理公司，甚至是专业的咨询公司。行业数据治理，更是要付出高昂的人力成本。一位云厂商大模型产品负责人今年9月对我们分析，一些无法通过算法自动标注的复杂数据，需要交给专业懂行的人，靠人工标注完成。极端情况下，一条数据标注成本可能就在100元以上。

人才招聘，是另一个重要成本。但对大多数企业来说，懂大模型的人才既贵又少。

“我们这类公司里，只有懂应用的人才，缺少懂AI的人才，更缺少专业懂AI的团队”，一家国资背景的跨国联营饮料集团CIO今年5月曾对我们表示，他从1月开始开出高价招聘懂AI的人，其中包括一名数据挖掘和AI算法工程师、一名有咨询经验的AI应用产品经理。但直到5月，这两个岗位都没找到合适人选。

在他看来，如果没有真正懂AI的人才，盲目探索大模型落地，只会导致更大的资源浪费。但是组建起一支专业懂AI的团队，又需要CEO层面的支撑——因为数字化转型是“一把手工程”，深度研究大模型需要投入坚定的意志。

应用开发，企业往往是精打细算且有步骤的。一个主导思路是，从边缘场景开始小规模投入，而且必须算清投入产出比。

一家白酒企业的数字化负责人今年5月曾对我们表示，在快消、零售领域，超过15万元就是大项目。他们的数字化团队找到大模型落地场景后。要先做无成本的前期测试，只有成果显著才能说服管理层申请预算。他们一般会从单个场景试点开始开发应用，在单点看到价值转化后，才会在其他场景落地大模型。

“首先我们必须承认，隐性成本很大比例要靠企业自身解决。其次，我们还是要帮企业把环绕在大模型周边的隐性成本阶梯式降下去。”吴迪认为，降低使用大模型的隐性成本是有方法的。

他把企业CIO和CTO烦恼的问题分成了几大类，每类问题一步一步解决。火山引擎针对每类问题，都推出了相应的工具或插件。

针对数据问题，向量数据库可以在一定程度上降低企业数据治理工作。一些非结构化数据的存储、搜索、分析，可以通过火山引擎的VikingDB这类向量数据库来完成。因为，向量数据库能浏览大量非结构化数据，不需要依赖人工标注。它还具备记忆能力，可以让连续对话的内容更精简、精准。

中手游是一家游戏上市公司，旗下有一款名为《仙剑世界》的手游。这款游戏中的NPC（非玩家角色，也被称为机器人）使用了豆包大模型生成对话。为减轻模型幻觉、减少调用Token量，《仙剑世界》又继续使用了火山引擎的VikingDB用于数据存储、搜索、分析。

针对应用开发问题，火山引擎推出了扣子专业版AI应用开发平台。它采用了零代码、低代码的方式降低开发难度。企业的IT团队甚至是业务团队，都可以“搭积木”的方式拼出适合自身的轻应用。海底捞就通过扣子开发了“智能客服评价助手”，这正在帮助海底捞评估客服服务质量。

还要有持续降价的空间

云厂商的大模型竞争有两大变量：一是，算力规模能否持续扩大；二是，推理成本能否持续下降。

大模型竞争正在加剧。谁的算力规模更大，谁就有坚持到最后的底牌。

2023年之前，1万枚AI芯片的数据中心是基础大模型的入场券。2024年以后，基础大模型有朝着10万枚AI芯片的方向演进的趋势。能持续投入的厂商会逐步减少，最终只有少数几家头部厂商继续参与长跑。多位行业人士对我们表达了同一个观点，国产大模型淘汰赛已经开始了。这轮淘汰赛会持续一两年，只有3家-5家基础模型企业能继续活下去。字节跳动是少数能参与这种军备竞赛的企业之一。

一个公认的事实是，模型的推理成本未来会不断下降。谁能把成本压到更低，谁就有更大的竞争优势。

AI创业公司OpenAI是降低推理成本的佼佼者，几乎每年都会对主力模型进行大幅降价，且还能在降价后保持高毛利。今年4月，OpenAI的旗舰模型GPT-4-turbo输入价格降低了61%，输出价格降低了67%。今年8月，OpenAI的主力模型GPT-4o输入价格降低了50%，输出价格降低了33%。

国际市场调研机构FutureSearch今年8月发布的研究报告称，OpenAI旗下GPT-4系列旗舰模型毛利率约为75%，GPT-4o系列主力模型毛利率约为55%。OpenAI综合毛利率至少在40%以上。

模型推理算力持续降价，需要降低模型的算力消耗、提升算力的利用效率。这也是云计算的商业本质——靠技术，持续降低算力成本，榨取利润空间。

一位决定跟进新一轮降价的头部云厂商高管曾向我们分析，他们进行多轮推演测算，考虑到了两个矛盾点。

一是，降价后存量收入会下降，增量收入会增长。增量收入能否覆盖存量收入？

二是，如果同行降价更激进，要如何应对？

但最后的结论是，瞻前顾后没有用。最终结论是，现在的规模比利润更重要。

吴迪认为，人工智能如同漂浮在海面上的一座冰山。海面之上看似只有大模型，海面之下才是各个公司的硬实力。这种硬实力是，如何持续通过工程能力降低推理算力的成本。

他强调，豆包大模型降价，既不是拍脑门，也不是对标同行，而是科学计算的结果——其中综合考虑了算力资源储备情况、市场未来用量增速、模型成本下降趋势这三个变量。火山引擎之所以能有底气降价，是因为做到了三点。

其一，提升云的硬件调度效率，避免资源浪费。火山引擎可以做到每一块GPU利用率都处于较高水平。

其二，系统工程要持续优化，这里还有很大的降本空间。

其三，采用更高效率的模型结构和算法，让推理跑得更快更好。

调度效率方面，云一旦形成规模，便能依靠弹性持续降低边际成本。字节跳动本身就是推理消耗大户，火山引擎还可以把不同业务的负载混合调度，提高单卡推理效率，进而大幅降低成本。

系统工程方面，可以把原本在一台服务器上执行的推理任务，拆分成多个子任务，并在多台服务器上同时执行。通过这种方式，充分利用多台机器的计算资源，大幅提升推理速度、降低推理成本。

模型结构方面，过去两年，大模型的发展遵循着Scaling Law（OpenAI在2020年提出的定律，直译为“缩放定律”）——模型性能主要与计算量、模型参数量和训练数据量三者大小相关。因此，一种降低推理成本的思路是，通过增加数据质量/数量、优化算法和架构的方式提升模型性能、降低模型尺寸。还有一种做法是，采用MoE（Mixture of Experts，一种模型设计策略，通过混合多个专业模型，获得更好性能）的架构提升模型性能、降低推理成本。

2023年，模型公司普遍在思考怎么做大模型的参数规模。2024年，模型公司普遍在思考怎么降低降低模型推理价格。“下一步，大家要想的是如何提升模型性能，让它更易于落地。这也是我们正在做的事情。”吴迪的观点是，要在正确的时间做正确的事情，螺旋上升式地释放算力红利。

在他看来，“也许不会很快诞生下一个抖音，但AI能力会一点点渗入现有的日常应用之中。小的创新渗透到土壤深处，后面才会有新的物种成长出来。大模型的正向循环就是这样建立的。”