每次市场选择多了,企业也头疼,到底是用最便宜的,还是多方面评估?我先说一下哈评的观点,虽然开源模型在价格上显得更为经济实惠,但企业决策层在采纳大模型时,其核心考量并非单纯的技术成本,而是聚焦于“性价比”这一综合指标,即模型对业务增长的实际贡献与投入之间的比例。
据不完全统计,目前国内发布的大模型数量超300个,10亿参数规模以上大模型数量也超过100个,大模型产品更是琳琅满目,版本、能力、价格各不相同,开源闭源技术路线各有利弊,面对各种数据和概念,企业也难免患上“选择困难症”。
在大模型的选择上,企业的谨慎可以理解。大模型在使用过程中不仅包含了在资源方面的显性成本,还包含了人力、时间等“隐性成本”。选择了不适合企业的大模型,不仅给企业造成资源的浪费,还会因为效果不理想耽误业务进展,从而贻误市场机会,造成更大损失。所以,怎么选大模型很重要。
内容行业是大模型率先重构的行业,也是目前大模型应用典型的场景,本文以一家小说创作平台使用大模型的经历,从企业角度出发,看平台在选择大模型时都有哪些考量,为更多企业选择大模型提供参考,拨开价格、参数的迷雾,找到适合企业的大模型。
一个小说创作平台在看到大模型对内容行业翻天覆地的改造后,该平台考虑上线AI续写功能,辅助平台小说创作者进行创作,以提高他们的创作效率,给创作者提供新的灵感来源。
一开始,平台采用的是国内主流的某明星开源模型+SFT(有监督精调)模式为创作者提供服务,在对7万条数据精调之后,AI续写的可用率和优质率分别为79%和57%。“可用率”和“优质率”是AI小说续写场景中评价效果的两大核心指标,“可用”是指AI续写的结果对创作者有帮助,续写内容部分给作者带来启发;“优质”指AI续写内容可供作者直接使用,或小幅修改后可使用。
对于平台来说,79%的可用率和57%的优质率并不理想。
随后,平台又进一步测试了参数与此前开源模型同一量级的百度闭源大模型ERNIE Speed。通过对2万本小说进行Post-Pretrain(后预训练),并对7万条数据进行精调后,AI续写的可用率和优质率分别提升到82%和64%。
也就是说,在同等参数规模下,ERNIE Speed模型的表现好于开源模型,续写内容基本符合创作者对下文的预期,创作者对AI续写内容在小程序和PC端的采用率分别为32%和28%。(续写时,同时为小说作者提供3个续写结果,作者使用任意一个结果视为采用。)。
“在业务场景中,同等参数量级的闭源模型表现明显好于开源模型。”该平台IT负责人表示。
这是大模型与产业结合的一个典型案例。随着大模型在产业落地,面向“千行百业”,从金融、交通、政务、医疗到制造业、教育业,大模型面对的都是类似专业性很强的场景。
例如内容续写就是一个专业性很强的业务场景,AI续写既要保持原作的风格和主题,必须捕捉到原著的精髓,以确保续写小说的连贯性和读者的阅读体验;又要确保逻辑和情节的合理性,与原作的情节发展契合,避免出现不合逻辑的情节转折;还要确保人物性格的一致性和情感表达的准确性。
面对类似专业性强的业务场景,在同等参数量级下,闭源模型表现好于开源。这是因为闭源模型是从最大模型中裁剪出来,性能比开源模型更高、更能打。开源模型想追平闭源模型的能力,需要更大的参数,推理成本会更高,反应速度也更慢。
企业处在瞬息万变的市场环境中,需要比同行保持更高的业务效率和更低的成本,这时商业化的闭源模型其实是更能打的。
大模型从兴起就陷入“内卷”,卷排名卷参数,今年已经卷到了token价格,B端市场从以分计价卷到了以厘计价,甚至很多主流大模型厂商的主力模型已经免费。
对企业用户而言,在选择大模型时,真的是越便宜越好吗?
以前述小说创作平台为例,该平台使用开源模型+SFT的训练成本(包含机器成本和人力成本)约3.2万元,使用百度闭源大模型ERNIE Speed训练成本为5.2万元,略高于开源模型。
单从价格来看,开源模型更有优势,但企业使用大模型更看重的是“性价比”。企业使用大模型的核心需求并非购买技术,更看重的是大模型为其业务带来的价值。尽管ERNIE Speed成本高于开源模型,但在使用一段时间之后,给小说创作平台带来更多创作者,公司收入也增加了。从投入产出来看,ERNIE Speed更具性价比。
对企业来说,在计算大模型的性价比时,企业支付的成本,不仅包括了资金成本,还要把人力成本、时间成本计算在内,而产出也不仅限于收入增加、效率提升,还包括了使用大模型带来的市场机会。
还以小说创作平台为例。内容创作是一个竞争激烈的行业,在前述小说创作平台上线AI续写功能之后不久,同行很快跟进陆续上线该功能。为了持续保持领先优势,抢占市场先机,平台开始寻求能力更强的模型以进一步提高AI续写效果,在此背景下,公司开始测试百度ERNIE 4.0模型。
这次,平台直接调用了ERNIE 4.0,在没有对模型做进一步的精调和后预训练的情况下,取得了整体更好的续写效果。其中,AI续写内容的总体可用率在ERNIE Speed基础上又提高了10个百分点,达到92%,优质率提高了18个百分点,达到82%;AI续写内容采用率方面,小程序采用率提升到48%,PC端采用率提升到59%,与ERNIE Speed相比,分别提高了16个百分点和31个百分点。
使用ERNIE 4.0的续写结果明显更符合作者对下文的预期,写作效率提升幅度更大。经过综合评估,平台把原来在ERNIE Speed上通过大量数据精调来使用的方案,切换为了直接使用参数更大的ERNIE 4.0方案。
通过ERNIE4.0,平台不仅保持了市场优势,而且还能在后续的使用中,得到百度团队的长期服务和支持。例如,在使用ERNIE4.0的过程中,针对平台提出的文风的问题,百度千帆团队使用平台提供的几百条少量数据进行调优,很快就将ERNIE 4.0在文风方面效果提升到了预期幅度,且数据调优整个过程都由千帆团队完成,平台不需要承担额外成本。
从性价比角度来看,ERNIE4.0可直接调用,易用性和效果更佳,平台无需额外投入人力、时间成本,综合性比价更高。
所以,在综合比较之后,该平台IT负责人也表示:“在闭源模型中,像ERNIE 4.0这样参数量更大、能力更强的大模型,直接使用就能表现出非常好的效果,企业无需自己调优模型,在效果和易用性上是开源模型无法做到的,这为企业在激烈的竞争中保持领先和抢占市场先机,综合来看,是性价比最高的最优选择。”
一直以来,由于开源模型大部分免费,被认为成本更低、价格更有优势。但大模型应用是一套包含了“技术+服务”的综合解决方案,企业要算“总账”。开源模型看似免费,但要达到与闭源相同的效果,需要在后续投入很多的人力、资金、时间,综合下来反而需要企业投入更多。这也是为什么有人说,“免费的反而是更贵的”。
2024年是大模型应用的爆发之年,大模型厂商都推出各种优惠抢占市场份额,面对鱼龙混杂的大模型市场,企业不要被各种参数、数据和低价迷了眼,而要回归到业务本身,选择融入到企业的场景和业务流程中的技术,和那些真正站在企业角度考虑业务的大模型厂商,让大模型真正服务于业务、为企业带来价值。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有