商汤的进化:方法论、杀手锏与想象力

商汤的进化:方法论、杀手锏与想象力
2024年05月06日 16:49 创业最前线

出品 | 创业最前线作者 | 张樵编辑 | 闪电美编 | 李雨霏审核 | 颂文

“比起去年,我们的认知有很大迭代。去年我们主要聚焦在模型本身的技术发布,而今年则更多关注行业场景的落地,以行业来驱动人工智能的爆发。”商汤科技董事长兼CEO徐立在近日举办的技术交流日活动上这样说道。

“认知迭代”体现在了一系列的最新发布上。全新升级的“日日新SenseNova 5.0”大模型体系、行业首个“云、端、边”全栈大模型产品矩阵,让商汤成为外界关注的焦点,甚至带动了其股价和市值的飙升。

在大模型如火如荼的当下,以及商汤成立第十年这样一个时间节点,通过“认知迭代”和新品发布观察这家中国最具代表性的AI公司,无疑有着重要且特殊的意义。这不仅能够从中感受到商汤作为AI头部企业的硬科技创新和技术进化力,也能够得以窥见商汤广阔的想象空间。

1、大模型方法论:对标GPT-4 Turbo的底气

回溯大模型的演进史,随着模型规模的迅速增长,其性能和能力也会出现相应的提升,而随着算力规模的不断提升,大模型还将发挥出更多变革性作用,它的能力还远远未到极限。其中,Scaling Law(尺度定律)无疑发挥了核心作用。而除了大模型本身,Scaling Law也是推动整个AI产业发展的关键因素。

对于大模型服务商而言,Scaling Law显然是AI时代需要深刻领悟的黄金法则。

作为国内首个发布超过千亿参数级大模型的厂商,商汤对Scaling Law有着自己的理解。在这一准则的指引下,商汤以“大模型+大算力”作为双轮驱动,不仅探索出了大模型能力的“顶层设计”——KRE三层架构(知识-推理-执行),各层之间相辅相成,以此定义和拓展大模型的能力边界,而且,在大装置的支撑下,通过海量高质数据和相应的配比及训练,加上丰富的行业know-how,逐渐形成了一套大模型研发和迭代的方法论。

从去年4月商汤发布日日新大模型到如今,短短一年时间,日日新就已迭代了五个版本,从1.0版到最新发布的5.0版,其中各项能力的持续提升,就是这一套方法论的最佳体现,这也构成了日日新5.0对标GPT-4 Turbo的底气。

据介绍,日日新5.0基于超过10TB tokens训练、覆盖大量合成数据,采用混合专家架构,推理时上下文窗口可以有效到200K左右,此次更新主要聚集增强了知识、数学、推理、代码及多模态能力,综合能力全面对标GPT-4 Turbo,主流客观评测上甚至达到或超越GPT-4 Turbo。在应用产品层面,秒画、如影、格物、琼宇、大医、小浣熊家族等产品均有重要更新,更好适应更多应用场景。

“随着大模型、生成式AI技术的到来,其强大的数据处理、学习泛化与内容生成能力,高质效加速了各行各业人工智能技术的赋能进程,为AI可赋能的场景领域、扮演角色提供更多创新性与可能性,”艾瑞咨询在《2023年中国人工智能产业研究报告》中表示。在大模型的影响和带动下,据测算,2028年,中国人工智能产业规模将达8110亿元。

作为AI头部公司,借助大模型方法论,商汤已成为行业内少数可让大模型高速迭代的企业,更重要的是,这样的方法论带来了两点启示:

第一,Scaling Law将会继续引领大模型的技术突破,当大模型带来能力涌现时,大模型将扮演类似于微软操作系统Windows的角色,进化为一种新的操作系统和计算体系,不但可以颠覆以往的人机交互的方式,还将出现杀手级应用,以相对低成本和快速的方式服务于不同行业和不同场景,在提高工作效率的同时,也能够激发用户的创造力。

图 / 摄图网,基于VRF协议

第二,从PC互联网-移动互联网-云计算这个发展路径来看,每一次新的革命性技术的出现,不仅会催生出更多的新巨头,也会让紧跟行业走势的存量巨头从中受益,过往的经验显示出,从互联网向云计算的过渡过程中,存量巨头的市值有了大幅度的增长。同理,大模型这一极具发展潜力的事物,同样能够带动包括商汤在内的存量巨头的增值和发展。

2、杀手锏:“云、端、边”全栈布局

如今,大模型领域各方势力云集,互联网云服务商、AI服务商、电信运营商、IT服务商、高校及科研机构、创业公司之间竞争激烈。此外,目前出货量巨大的PC、手机、平板、AIoT设备、汽车,都将成为大模型应用的载体和场景。AI企业应该如何面对这样的发展趋势?如何基于自身对技术和行业的理解,发挥出自身的独特优势,从而在各方竞争中脱颖而出?显然,仅仅推出大模型和应用是不够的。

对此,商汤在技术交流日活动上一边做出了“2024年是大模型在端侧应用爆发的元年”的判断,一边推出了“云、端、边”全栈布局的独特设计,其中包括应用于终端设备的“商汤端侧大模型”,以及面向金融、代码、医疗、政务等多个领域的边缘产品“商汤企业级大模型一体机”。

移动设备的算力调用、数据的传输和延迟、数据安全与隐私保护……海量的终端对大模型的使用频率,性能速度,安全稳定等各方面提出了更高要求。商汤此次推出的SenseChat-Lite版本端侧大模型,具备更强的推理速度,可面向手机、平板、智能汽车等终端,提供轻量、高效的大模型能力。同时,商汤的端云协同解决方案可通过智能化判断协同发挥端云各自优势,显著降低推理成本。

对于金融、代码、医疗、政务等重点行业边缘侧日益增长的AI应用需求,商汤也推出了企业级大模型一体机,可同时支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署,即买即用,降低企业应用大模型的门槛。

除了技术和产品,生态拓展也是AI产业升级和质变的重中之重。据了解,商汤订单金额超过千万元人民币的客户数已达到数十家,各行各业的头部企业,如三大运营商、招商银行、海通证券、京东、小米、阅文等,都已成为商汤的客户。

在此次技术交流日活动上,金山办公、海通证券、小米、华为作为商汤的合作伙伴,从不同维度出发,分享了大模型技术在办公、金融、出行等不同领域的应用及前景。

基于日日新大模型,商汤助力WPS 365打造更高效释放场景能力的办公新质生产力平台,为企业构建专属的“企业大脑”;在金融领域,海通证券与商汤共同打通证券行业大模型落地的全栈式能力;在个人出行场景,小米汽车SU7中,小米小爱同学为车主提供智能化交互体验,当中也应用了商汤的大模型技术,基于商汤端云大模型解决方案,“小爱同学”为车主提供智能化交互体验。此外,商汤还发布了基于华为昇腾原生的行业大模型,共同打造面向不同行业的大模型产业生态。

“云、端、边”全栈布局和生态拓展,体现出了商汤的创新技术能力和行业服务能力,也显示出了商汤的差异化思路和优势:

首先,手机、汽车等终端需要大量使用行业领域中的数据。例如多模态模型涉及视频、图像、各种其他模态的数据,这些数据往往在互联网上得不到,需要与垂直行业深入结合,而商汤有着深厚的产业数据积累。

第二,多模态模型的应用价值在哪里?它的模型发展方向会向哪些方向优化?这些问题都需要行业的牵引。商汤在各个行业深耕多年,深刻理解各个行业需求,有着针对某个行业进一步优化多模态大模型的能力。

3、商汤的想象力

IBM发布的《2023年全球AI采用指数》的数据显示,2023年,有高达85%的中国企业表示在过去的一段时间里加快了对AI的投入应用,63%的中国企业表示正在积极应用生成式AI,34%的中国企业正在积极探索生成式AI。这表明,生成式AI在国内,有着巨大的市场潜力和商业机会。

商汤于今年3月发布的财报则显示,2023年,生成式AI业务收入达11.84亿元,同比增长200%,总收入占比超过35%。徐立表示,“这是商汤成立十年以来,以最快速度实现从无到有,超过10亿元收入体量的新业务。”国际知名调研机构Frost&Sullivan联合头豹研究院发布的《2023年中国AI开发平台市场报告》显示,商汤在增长指数和创新指数两大评估维度的综合评分中位居国内首位。

目前,商汤的生成式AI业务已形成了完整的“树形结构”:大装置是树根,大模型是树干,生态和应用则在最上面开枝散叶。凭借着前瞻性战略布局、大模型方法论和差异化思路,加上对的技术、对的伙伴、对的行业、对的场景,生成式AI业务构建起了核心优势与商业闭环,正在让商汤实现快速进化,同时形成竞争壁垒与护城河。无疑,商汤正在给外界带来更多的想象力,这在以下四个方面表现得尤其明显:

第一,与市场上众多的大模型服务商不同,商汤正在扮演一种新的角色:深度了解不同行业,基于丰沛的算力资源和高质量数据打造各式大模型及其应用,形成覆盖云、端、边的产品矩阵,从而推动行业引发类似于工业革命的技术变革,重塑商业模式和管理理念。

第二,国内移动智能设备的高普及率,将为包括商汤在内的科技企业,特别是AI企业带来巨大的商业机会。原因在于,移动端的普及,将会为AI企业带来丰富的应用场景和应用数据,AI产品如大模型,也能够有源源不断的数据作为支持,能够更好地反哺应用。

第三,与C端相比,生成式AI更有价值的落地应用还是在B端。从商汤的日日新大模型中可以预见的是,未来的大模型将结合行业的应用场景,以及不同工具,真正实现行业智能化,这也是不同行业结构性升级的重要途径。

第四,AI的逐步成熟,也将在很大程度上推动技术预见的发展。以商汤为代表的AI企业,在生成式AI领域大量投入,对于实现未来技术发展趋势的预判,以此促进新兴产业的发展,也有着十分重要的意义。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部