商汤转型生成式 AI 这一年:预判与聚焦

商汤转型生成式 AI 这一年:预判与聚焦
2024年04月10日 19:27 晚点LatePost

主动收缩传统 AI 业务,商汤锚定生成式 AI。

在大模型浪潮去年席卷全球后,2014 年就成立的中国老牌 AI 公司商汤科技的最新年报变化明显:

商汤将原本的 4 个主营业务——智慧城市、智慧商业、智慧生活和智能汽车,重新划分为 3 大板块——“传统 AI” 业务(智慧商业、智慧生活、智慧城市构成)、“智能汽车业务” 和 “生成式 AI 业务” 。

商汤对这些业务态度分明:收缩传统 AI 业务,集中资源投入生成式 AI 业务。

这是商汤成立以来的最大一次转型,它已部分反映在业绩上:据今年 3 月底发布的 2023 年年报,商汤生成式 AI 业务去年的总收入达 12 亿元人民币,营收占比为 35%,而过去曾占商汤收入大头的智慧城市业务占比已降至 10% 以内。

一位商汤管理层预测:今年或明年,商汤生成式 AI 的营收占比例将超 50%。

综合市场信息,商汤的 12 亿元营收在中国大模型和整个生成式 AI 市场处于领先位置。

更快的商业化进度与商汤的前几年的非共识判断与提前布局有关。

早在 2019 年,商汤就开始开发参数规模超出行业的视觉大模型,2020 年又开始开发大语言模型,是中国最早做大模型的公司之一。

更考验决心的是商汤 2020 年启动的 “大装置”,这是商汤自建的算力基础设施,需要大笔投入。当时商汤正在筹备上市,有较大财务压力,但仍选择投资。

据了解,2023 年初时,商汤大装置就已有 2.7 万张 GPU,目前则上升至 4.5 万张 GPU,算力较去年翻倍。

在新一轮 AI 热潮前,商汤过去的这些尝试尚处于早期商业化阶段。

在前不久举办的商汤年会上,商汤科技董事长兼 CEO 徐立谈到了商汤过去的沉浮,他认为商汤有能力抓住新机会。

“借用《繁花》里的一句话,大暑之后必有大寒,大寒之后也必有大暑。” 徐立回忆,商汤成立之初,没人相信中国公司能把人脸识别做到全球第一,而是有大量数据、人才和资源的 Google 和 Facebook 等大型科技公司更易成功。但到 2021 年,商汤的人脸识别等计算机视觉技术在全球各项比赛中拿下了 70 多个冠军,推翻了大公司更有机会做好这项技术的主流判断。

“这是商汤打破共识,形成反共识,再逐步塑造共识的过程。” 徐立认为,在生成式 AI 时代,商汤也能复现类似的过程。至少在算力层面,商汤已先走了一步。

从计算机视觉看到的 “Scaling Laws”

“更大的模型有更好效果” 是大语言模型能力提升的关键指引。大多数公司都把 OpenAI 在 2020 年发布的 “Scaling Laws” 论文视作这一洞察的源头。OpenAI 的研究者在论文中提到,算力、数据量和参数是影响模型性能的重要变量。他们也用实践证明,用更多数据和算力训练参数更大的模型,效果通常更好。

一位商汤研发高管告诉《晚点 LatePost》,他们在 2017 年研发视觉大模型时也感知到了同样的趋势,只不过这来自计算机视觉领域的实践。

商汤当时想做更大的模型与业务需求有关。那些年,阻碍 AI 技术规模化应用的瓶颈是:用相同的模型,无法满足客户的多样需求,服务不同场景时,得重新训练单独的模型,耗时耗力,成本也高。

许多公司选择提高单一模型的开发效率;而商汤的解决方法是:训练更大的模型,一次解决多个场景中的问题,到了部署环节,再针对特定场景精简模型,以节省模型运行时的算力。

沿着这个思路,商汤在 2019 年发布了参数达到 10 亿的视觉大模型。那时视觉模型鲜有如此大的参数,特斯拉的自动驾驶模型的参数量大概是 1 亿。

与商汤自己的老模型相比,更大的新模型效果确实更好,能解决的问题更多。比如同一个模型不仅可以识别出图像中的人,还能识别出汽车等物体,并能准确勾勒图片中不同的物体轮廓,即用同一个模型,就完成了人物、物体识别和图像分割等多个视觉任务。

之后几年,商汤又训练了参数 30 亿、100 亿的视觉大模型,底层架构也过渡到了现在主流的 Transformer,并在 2022 年发布了参数达到 320 亿的视觉大模型。

这些实践也让商汤也看到了语言与图像融合的趋势。原本训练计算机视觉模型,需要靠人工标注数据。而训练更大模型需要的数据量达到的数亿,甚至数十亿,此时无法再靠人去一个个标注数据,更高效的方法是搜集带有文字描述的图片,经过清洗后训练模型,语言处理能力由此成了训练更强的视觉模型的必要条件。

OpenAI 在 2020 年发布 GPT-3,让业界看到了大语言模型的潜力,商汤彼时也加大投入研究大语言模型,并着手积累相关训练数据。到 2022 年 11 月底 ChatGPT 引起关注时,商汤已有了不少储备。

2023 年 4 月,商汤发布 “日日新·大模型” 系列,是中国最早发布大语言模型的公司之一。同时,商汤还发布了一组生成式 AI 应用,其中有大语言模型支持的聊天机器人产品 “商量”,多模态模型支持的文生图应用 “秒画”,还有那会儿关注度没那么高的视频生成和文生 3D 模型的相关产品。

之后一年,商汤的大模型更新了 3 个版本。今年 2 月发布日日新大模型 4.0 时,商汤称,其大语言模型的 “综合整体评测成绩水平比肩 GPT-4”。

据商汤财报,4 月下旬,商汤会发布能力达到 GPT-4 Turbo 水平的日日新大模型系列,其中的视觉等多模态能力将对标 GPT-4V。

GPT-4 Turbo 是 OpenAI 在 2023 年 3 月发布的 GPT-4 强化版,它有更强的语言处理和编程能力;GPT-4V 则是 OpenAI 在 GPT-4 基础上融合视觉处理能力的多模态模型。

提升模型本身的性能之外,商汤也在通过其它工程手段优化模型的最终表现,让它更实用。

比如商汤使用了检索增强生成(RAG)技术,来提升大模型处理数据、回答问题的能力,增加模型的金融知识储备,降低错误信息生成的概率。这帮助商汤谈下了中国银行、招商银行、中国工商银行和上海银行等金融客户。

大模型已能解决越来越多问题,但是随着技术发展,商汤认为模型并非越大越好。为了更好适应端侧场景,商汤还训练了一系列不同规格的小模型,它们能在汽车、笔记本电脑和手机等移动设备上运行。商汤已与早期客户小米、荣耀等手机品牌达成了共同探索更多端侧应用的合作。

徐立认为,商汤过去为手机、汽车厂商提供计算机视觉模型的经验,也可以迁移到大模型领域。

在终端部署模型的难点是:手机等设备上算力有限,需要用更小的算力实现模型效果,这涉及一系列技术与工程化技巧。商汤之前就服务过大多数头部安卓手机厂商,汽车客户则有本田和广汽埃安等,其模型已运营在超 20 亿台手机和上百万辆汽车上。

“中国最大的商业化场景就是各个终端。” 徐立说。

商汤在财报中提到,2023 年,商汤已经谈下数十家订单金额超过千万人民币的生成式 AI 客户。

一位商汤人士称,现在商汤的大模型业务还处于商业化早期阶段。他认为,大模型的商业化与模型能力息息相关,等到商汤发布能力更强的基础模型后,相关收入会迅速增长。

顶着亏损建设 “大装置”

过去一年,算力成为整个 AI 行业最紧俏的资源。埃隆·马斯克(Elon Musk)感叹英伟达先进的 GPU “比毒品还难买”。英伟达的股价一年之间涨了 3 倍多,成为市值最高的芯片公司。

从 GPU 采购量来看,商汤大装置的算力规模跟字节跳动的火山引擎、阿里云等云计算公司有一定差距。但在算力紧缺的 2023 年,商汤靠着 “大装置 + 大模型” 吸引了各行业的多家客户,有金融领域的太平洋保险和招商银行等;头部互联网公司如京东、小米、金山和微博等;大模型和生成式 AI 创业公司 HiDream.AI、澜舟科技和 Tiamat 等;还有清华大学和人民大学等学术机构。

徐立把 “大装置” 视为商汤打破业内共识、重建共识的最新案例。

2017 年训练出来 1000 层的视觉神经网络 SenseNet 后,商汤的研究人员就开始着手建设大装置的原型系统。等训练出 10 亿参数视觉大模型后,商汤在 2020 年 7 月决定投入 56 亿元建设大装置,是商汤当年营收的 1.6 倍。

投入大量资金建设算力中心,对当时还在亏损的商汤来说是一个挑战。2020 年下半年,商汤递交了港股招股书,大规模的资金投入可能影响其在资本市场的表现。

“公司里大部分人都不理解,商汤作为 AI 公司,为什么要做重资产的基础设施。” 徐立在年会上说,“有些大厂也认为针对 AI 提供算力服务的市场太小,不值得投入大量研发资源。”

即使到现在,作为 AI 公司是否应该自建算力设施也没有形成共识。据了解,国内大模型创业公司中,有的公司选择全部租赁 GPU,不持有资产,有的则大部分倚靠自建算力,少量租用外部 GPU。

徐立自己的逻辑是,做更通用的模型需要更大的算力支持。几年前他接受采访时说,大装置可以让 AI 的商业化不再依靠密集的人力。

当时最普遍的 AI 商业化方法是根据项目定制解决方案,如做一个手机人脸解锁算法,需要上百人的团队,换一个场景又得上百人进来。而有了专门为 AI 定制的、更强的算力中心,他们可以更高效地训练通用大模型,从而解决落地过程中不断出现的细分场景。

商汤的大装置在 2021 年底投入使用,除了少量高校等科研机构,大装置那时并未给商汤带来太多外部新客户,直到 ChatGPT 出现。

尽管如此,商汤 2020 年以来一直在持续购买更多 GPU,扩大大装置算力规模。商汤大装置的整体算力目前已达到 1.2 万 petaFLOPS(每秒千兆亿次浮点运算),是建成时的 4 倍。

据商汤介绍,他们现在已可以互联超过一万张 GPU ,保持 90% 加速率(衡量多卡互联训练大模型效率的指标,理想状态是 100%),并持续训练 30 多天不中断——这是训练上千亿参数甚至更大模型的必备能力。商汤称,他们也在优化大模型推理环节,一年内把性价比提升了 3 倍。

一位商汤人士说,商汤会持续采购华为昇腾、寒武纪等 10 多家中国公司的 AI 芯片,以更多元的芯片扩充大装置算力。

从传统 AI 到生成式 AI

商汤在去年启动成立以来最大转型:重点投入生成式 AI,主动收缩为商汤贡献绝大部分收入的传统 AI 业务。

传统 AI 是商汤原来的智慧城市、智慧商业和智慧生活等非生成式 AI 业务,2023 年的收入占比从前一年的 82% 下降到了 54%。

商汤在财报中特意提到,智慧城市业务在收入中的占比已不到 10%:“公司对其依赖大幅降低”。

徐立称,接下来商汤的智慧城市和智慧商业会重点聚焦有现金流、利润率更高的领域。

商汤智能汽车业务始于 2016 年,主要是基于计算机视觉技术开发包括高级辅助驾驶和智能座舱等解决方案,客户已有广汽埃安、哪吒汽车等。它们把商汤的方案用到了多个车型上。过去一年,商汤智能汽车业务的收入增长 31% 到 3.8 亿元。

传统 AI 业务收缩,生成式 AI 成为商汤当前的最重要业务。

一位商汤人士说,虽然许多客户会提前付款,等着用商汤的大装置。但商汤依然会预留相当比例的算力,用来训练自己的大模型。

“如果只是租赁算力,商汤可能就只能从生成式 AI 浪潮中获得一小部分收入,而且没有竞争力。” 一位商汤高管说,最适合商汤的业务模式是借算力优势,延伸业务范围,比如提供模型训练和推理服务,以及用更低的成本训练出行业领先的大模型。

商汤以算力为基础向生成式 AI 转型也面临着重要挑战。比如算力中心属于重资产业务,需要考虑折旧,会拉低商汤的利润率。

商汤的转型还在继续。商汤在财报中写道:2024 年,商汤会继续调整业务,改善现金流、减少亏损——这是它过去 10 年一直面临的难题,也是中国 AI 企业普遍的待解之题。

题图来源:由商汤秒画生成。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部