中国AI大模型让老美科技圈炸了锅,到底什么是情况?有什么意义?

中国AI大模型让老美科技圈炸了锅,到底什么是情况?有什么意义?
2025年01月07日 19:58 万大叔_

一个中国AI大模型,却让老美科技圈炸了锅、乱了阵脚,这到底是怎么回事呢?

头几天,杭州深度求索发布了DeepSeek-V3大模型,并同步开源。在人工智能高速发展的当下,这本身也没什么可新鲜的。但当经过测试发现,DeepSeek的性能已经超过了大部分AI大模型,包括Qwen(千问)2.5-72B和 Llama[ˈlɑːmə]-3.1-405B等其他开源模型,甚至与闭源模型GPT-4o以及Claude-3.5-Sonnet[ˈsɑːnɪt]不分伯仲。

而最令人意外的是,参数量671B的DeepSeek-V3,在预训练阶段仅使用2048块GPU,并只训练了2个月,花费的成本只有557.6万美元。

而根据估计,Meta的大模型Llama[ˈlɑːmə]-3.1的训练投资超过了5亿美元,GPT-4o训练成本约为1亿美元。

另外,根据外媒的报道,Llama[ˈlɑːmə]模型使用了3080万GPU/小时,而DeepSeek-V3仅仅用了280万GPU/小时。DeepSeek-V3更加强大,训练消耗的算力却仅为前者的1/11。

那么这相比之下,简直就是一个在天上一个在地上了,也难怪老美都要疯了。

当然,最关键的不是中国AI大模型的性能,已经与自己最好的大模型不相上下,而是他们的计谋或将再次失算。

其实最近两年,全球科技巨头们都在疯狂的构建自己的算力,例如,根据摩根士丹利预估,亚马逊的投入高达964亿美元、微软是899亿美元、Alphabet是626亿美元、Meta是523亿美元。

而这背后,可能不仅仅是一个技术上的投资那么简单。大家都知道,老美为了限制我们再AI技术上的发展,对高端AI芯片进行的封锁和限制。这种手法,必然会在某种程度上,减缓我们的AI发展速度。

相比之下,正如刚才所说,美国科技企业疯狂建立AI算力,那么是不是就存在这种商业模式,你自己的算力不够,就可以到我这里买,使用我提供的云服务。这样,不仅可以赚到你的钱,还能在后台监控你的数据。可以说是一举多得。

其次,你要买芯片也可以,只有阉割版,还得花高价。

总之,就是利用自己的科技霸权,在所谓的AI就是未来的风向中,收割全世界。

这里为什么我加了所谓两个字,大家能懂得就懂吧,不懂我也好深说了,因为之前的一个观点,被某平台处罚了,到现在还没有恢复。

其实发展至今,很多大模型也只是停留在能提高个人工作、学习效率等方面,还没有达到足以改变世界的程度。而人工智能,其实更需要在生产制造、工业生产、科研教育、医疗监控等领域,发挥关键作用,因为提高生产效率,才能创造更多的社会价值。

当然了,人工智能作为一项前沿科技,其重要性不言而喻。我们自己也在努力,例如,截至2023年,中国算力总规模位列全球第二,累计建成国家级超算中心14个,全国在用超大型和大型数据中心达633个、智算中心达60个。

同时,在AI芯片方面,国产芯片在性能方面已经可以一用了,而且实现了自主化生产。所以即便是美国全面断供,也不用担心。

总之,这次国产大模型Deepseek的横空出世,打破了老美在AI领域已经构建的一些神话,原来大模型并没有那么的“高不可攀”,并不是只有美国的科技公司才有能力搞,想要打造出世界顶级的大模型,也不用那么庞大的算力规模,花小钱一样可以办大事。所以,这件事的意义重大,对行业来说,有可能会产生深远影响。或者说,某些科技泡沫,就要破灭了。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部