首次揭秘:什么样的硬件工程筑就亚马逊云科技顶级云计算

首次揭秘:什么样的硬件工程筑就亚马逊云科技顶级云计算
2024年12月04日 10:10 深度-围观

编者按:在一年一度的亚马逊云科技re:Invent大会上,全球科技界的目光再次聚焦。亚马逊云科技高级副总裁Peter DeSantis首先登场,分享作为云计算领域的领导者,亚马逊云科技凭借其在硬件工程上的卓越成就,与竞争对手拉开了显著代差。从芯片(Graviton和Trainium系列)到服务器(Trainium2 Server和Trainium2 UltraServer)到网络(10P10U网络架构和AI网络),到云对生成式AI的支持(Llama和Claude模型在Amazon Bedrock上运行最快)等等,全面阐述了亚马逊云科技的技术创新和工程化能力。

在Peter的演讲中,最重大的两项发布分别为Trainium2 Server和Project Rainier。Trainium2 Server是亚马逊云科技用于机器学习训练的最强大服务器,Project Rainier则是包含了数十万个Trainium2 芯片的新集群,其运算能力是以往集群的5倍多,将可加快Claude模型的迭代速度,让客户以更低价格、更快速度使用更高智能的模型。

芯片创新Graviton与Trainium定义AI计算未来亚马逊云科技通过自主研发Graviton和Trainium芯片,为云计算市场树立了新的标杆。Graviton系列芯片是亚马逊云科技针对云工作负载定制的ARM处理器。从Graviton到Graviton4,亚马逊云科技在性能、安全性和能效比方面实现了显著提升。Graviton4作为亚马逊云科技迄今为止最强大的芯片,支持多插槽配置,相比前代Graviton3,处理速度提升了30%,内核数量增加了50%,内存带宽提升了75%。

Graviton4为用户提供了更高性能、更低成本的云计算解决方案。Graviton4的强大性能,使得用户能够更高效地运行大型Java应用、数据库等高负载工作,从而在激烈的市场竞争中占据先机。Trainium芯片,则是亚马逊云科技专为AI训练设计的脉动阵列架构芯片。这种架构通过直接传递计算结果,避免了传统CPU和GPU在内存访问和计算步骤之间的延迟,从而大幅提升了AI训练的效率。Trainium2芯片与亚马逊云科技的NeuroLink技术相结合,能够构建出超级服务器,为AI模型的训练提供前所未有的计算能力。Trainium2的性能比上一代提高了4倍,内存容量提高了3倍,能效提高了2倍。在AI日益成为企业核心竞争力的今天,Trainium2的推出无疑为用户提供了强有力的支持,助力他们在AI领域取得更大的突破。通过自主研发芯片,亚马逊云科技不仅降低了对外部供应商的依赖,更在技术上与竞争对手持续拉开代差。云网络与AI网络构建高性能、高可靠的数字基础设施亚马逊云科技在云网络方面一直保持着领先地位,而本次re:Invent大会上展示的AI网络,更是将亚马逊云科技的网络技术推向了一个新的高度。Peter DeSantis强调了云网络的关键特性,如大规模容量、快速扩展能力和高可靠性。云网络需要应对每天数千台服务器的连接需求,确保网络不会成为客户服务的瓶颈。

亚马逊云科技的云网络通过全球数据中心之间的高速互联,不仅支持大规模的数据传输和处理,更通过智能路由和故障恢复机制,确保了网络的可靠性和稳定性。Peter DeSantis在演讲中提到,亚马逊云科技的云网络已经实现了5个9(99.999% )的可用性。而AI网络,则是亚马逊云科技为AI训练和应用专门打造的高性能网络。亚马逊云科技通过推出10P10U网络结构,实现了数十个PB比特的网络容量和低于10微秒的延迟。

此外,亚马逊云科技还在AI网络中通过专有的中继连接器和新的网络路由协议,通过中央计划与分散控制的结合,实现了对网络故障的快速响应和恢复。Claude 3.5与Project Rainier与Anthropic携手推进AI前沿Anthropic与亚马逊云科技之间的紧密合作,是本次re:Invent大会上的最大亮点。作为AI领域的佼佼者,Anthropic的Claude模型在代码编写、文档生成和工具使用等方面表现出色。而亚马逊云科技作为云计算领域的领航者,为Anthropic提供了强大的计算资源和技术支持。在演讲中,Anthropic的联合创始人兼首席计算官Tom Brown分享了Claude 3.5模型的最新进展。这款模型不仅继承了Claude系列的高效和智能,更通过亚马逊云科技的Trainium2芯片和NeuroLink技术,实现了性能的大幅提升。Tom Brown提到,通过亚马逊云科技的超级服务器,客户可以将Claude 3.5 Haiku模型的运行速度提高60%,从而大幅提升AI应用的效率和效果。

在Tom的分享中,我们了解到Claude3.5作为Anthropic的旗舰AI模型,已经在亚马逊云科技的Amazon Bedrock上取得了显著的应用成果,并应用于金融数据处理、医疗保健信息分析、研究数据处理等多个领域。Claude3.5的广泛应用,展示了生成式AI在推动行业创新方面的巨大潜力。

亚马逊云科技Amazon Bedrock推出面向基础模型的延迟优化推理功能,该功能现已公开预览,为AI应用带来更快的响应速度和更强的响应能力。目前,这些新的推理选项支持Anthropic的Claude 3.5 Haiku模型以及Meta的Llama 3.1 405B和70B模型,与标准模型相比,它们在保持准确率的同时降低了延迟。据Anthropic验证,在使用亚马逊云科技Amazon Bedrock的延迟优化推理功能时,Claude 3.5 Haiku在亚马逊云科技上的运行速度比其他任何地方都快。此外,使用Amazon Bedrock的延迟优化推理功能,Llama 3.1 405B和70B在亚马逊云科技上的运行速度也超过了其他主要云服务提供商。

亚马逊云科技宣布推出Project Rainier,这是一个拥有数十万个Trainium2芯片的新集群,该集群将支持更大规模和更复杂的AI训练项目。Project Rainier的发布,标志着亚马逊云科技在AI领域的布局进一步加深。

结      语从芯片创新到云网络与AI网络,再到与Anthropic的紧密合作和Project Rainier的发布,亚马逊云科技在re:Invent 2024大会上展示了其在云计算领域的全面领先地位。这些技术突破持续提升了亚马逊云科技的竞争力,与其他云厂商拉开技术代差。

然而,亚马逊云科技的成功并非偶然。其背后深厚的创新文化,是亚马逊云科技能够在云计算领域持续领先的关键。亚马逊云科技注重细节、追求卓越的领导风格,鼓励员工勇于尝试、不断突破的创新精神,以及以客户为中心、不断满足客户需求的服务理念,共同构成了亚马逊云科技独特的创新文化。亚马逊云科技借AI之智,为全球企业带来更多的机遇和变革,为用户铸就无可比拟的竞胜之道,共同推动数字经济的发展和社会的进步。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部