算力叙事摇摇欲坠,英伟达准备再造数据叙事

算力叙事摇摇欲坠,英伟达准备再造数据叙事
2025年03月21日 19:36 三易生活

在近日召开的全球人工智能领域“奥斯卡”英伟达GPU技术大会(GTC)上,黄仁勋公布了Blackwell架构的最新一代产品Blackwell Ultra,以及英伟达在自动驾驶、AI网络、机器人领域的进展。然而市场对于他此次在GTC上的演讲反应平平,并普遍认为英伟达并未展现出突破性的进展。

似乎是意识到了市场上的这种负面情绪,英伟达方面很快做出改变,仅仅在一天后就有了新动作。据海外媒体的爆料,英伟达以超过初创合成数据公司Gretel3.2亿美元估值的价格,收购了这家公司。那么他们为何会斥巨资去收购一家从事合成数据服务的初创企业呢?事实上,这或许与当下英伟达的处境息息相关。

作为这一轮AI淘金热中的“卖水人”,英伟达在过去两年的经历可谓是完美诠释了何为“春风得意马蹄疾”。然而今年年初横空出世的DeepSeek-R1却改变了他们的算力叙事,别看黄仁勋在今年GTC上宣称,DeepSeek发布的R1模型只会增加对计算基础设施的需求,担忧“芯片需求可能减少”毫无根据,但遗憾的是,华尔街对于这番表态却并不买账。

英伟达的股价在3月18日以3.43%的跌幅收盘,与此前在1月7日创下的历史高点相比,市值已经蒸发了超过9000亿美元。其实资本市场对于英伟达的疑虑,在于DeepSeek并不利空算力,先进的开源大模型无疑会催生更多的AI原生应用,而更多应用也就意味着更多的算力需求,可问题在于DeepSeek固然推高了算力需求,但也确实利空英伟达的"算力霸权"叙事。

Deepseek通过稀疏化训练、动态网络架构、混合专家系统(MoE)等工程层面的创新,已经证明了AI大模型的性能提升不必依赖堆砌算力。毫无疑问,这就动摇了英伟达在过去两年渲染的基于万卡集群的算力叙事,让算力投入的边际效益骤降。

当算力叙事不再被资本市场认可,英伟达自然就要开始要寻求“第二增长曲线”,数据就是他们选择的新赛道。训练出强大大语言模型的前提在于充足的高质量数据这件事,早已是AI业界的共识。可遗憾的是,现有的数据存量与人类创造新数据的速度,却远不足以支撑更先进AI的训练,从而也导致了AI的“石油危机”。

既然“数据荒”已经是现实,那么如果AI业界还想延续目前基于Scaling Law的研发路线,唯一的出路就是创造数据。如此一来,基于算法人为生成出符合真实世界情况的数据、也就是“合成数据”应运而生。

合成数据一般指的是基于物理仿真、统计模型、机器学习等方式,来模仿真实世界数据的特征产出的新数据。

相比于直接从现实世界采集的真实数据,合成数据具备更高效率和更低成本的优势。此前,知名信息技术研究机构Gartner就曾预测,到2030年合成数据将彻底取代真实数据,成为AI模型训练所使用数据的主要来源。

比如Meta就曾经在Llama 3上尝试使用合成数据进行训练,他们会先使用大模型本身来生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己,最终实现“左脚踩右脚上天”。

这一次被英伟达收购的Gretel,就是一家为希望构建生成式AI模型,但无法获得足够训练数据,或是对使用真实数据存在隐私担忧的开发者,提供合成数据和API的初创企业。其实除了高效率地解决数据荒,合成数据的另一大优势就是隐私性。

现阶段AI行业遇到数据荒,其中一个重要的原因就是有相当多的公司、机构,以及个人,并不愿意将数据提供给AI厂商,也不希望自己的数据会被用于训练AI。事实上,几乎每一个AI大模型、AI应用,都尽可能地在用户条款中明确“用户所提供内容会被用于训练模型”,比如不久前“光速滑跪”的腾讯元宝就是典型。

使用合成数据来填充训练数据集的优势就在于前者是“凭空杜撰”,可以消除偏见、并匿名化真实人类的数据。通过收购Gretel,英伟达就可以在提供算力之外,开辟一条卖数据的新财路。也就是说除了算法之外,与AI有关的算力和数据,英伟达都准备参与。

当然,收购Gretel并不等于英伟达就一定能建立起“数据叙事”,因为合成数据并非“免费的午餐”,同样也有缺陷。虽然合成数据可以用来验证或扩展人类已知的领域,却无法揭示初始数据集中不存在的领域。也就是说使用合成数据训练的AI,还无法摆脱欠拟合 (Underfitting)的宿命,不能很好地学习到数据中的规律。

简而言之,尽管采用了精心设计的prompt和有监督的训练,但大语言模型固有的偏差和幻觉等问题仍可能会给数据集引入噪声,即便使用纯粹的真实数据,大模型也无法摆脱这些,更遑论使用凭空捏造的合成数据。事实上,业界也一直在担心使用合成数据训练的大语言模型会无法泛化到现实世界的缺陷。

不过对于当下的英伟达而言,合成数据尽管不是十全十美,却足以解决问题。他们现阶段还不需要真正意义上建立数据叙事,而是要让资本市场相信其有能力建立一个AI生态链,包括从Blackwell系列GPU为代表的AI算力、到Gretel代表的AI训练数据,再到AI应用开发者平台NIM的完整生态。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部