6 款大模型官宣后,生成式 AI 淘汰赛的号角正式吹响了

6 款大模型官宣后,生成式 AI 淘汰赛的号角正式吹响了
2024年12月04日 19:10 InfoQ

不得不说,亚马逊云科技是一家充满了惊喜的公司,每一年的 re:Invent,仿佛都在强调一件事:能坐稳云计算市场老大的位置,是有原因的。

比如在今年的 re:Invent 上,人们习以为常地关注 Amazon Graviton、关注 Amazon EC2 Trn2……但更大的惊喜,其实出现在演讲中段,由 Amazon CEO Andy Jassy 官宣的六款自研基础模型——Amazon Nova 系列。

过往,亚马逊云科技通过与 Anthropic 的投资与密切合作,为客户提供大模型产品,虽然足够好,但总让人觉得略有遗憾。这次官宣的 Nova 系列切实弥补了缺憾。

随着六款模型的官宣,多模态的概念现在已经从文生图、文生视频,进化为“Any to Any”。Nova 系列不仅在各种评测中表现优秀,在价格、推理速度、易用性上也表现得极为出色。

可以说,大模型行业演进至今,亚马逊云科技是唯一贯彻了“客户至上”原则的企业,Nova 系列带有鲜明的“既要、又要、还要”得色彩,属于那种“甲方种草款”,是一个真正完备的 To B 产品,而不仅仅是一个酷炫的技术实现。

而 Amazon Bedrock 的更新则强化了这种产品理念。过往,人们的认知是:“Choice Matters”,也就是说,Amazon Bedrock 是一个大模型货架,上面陈列的大模型有很多,客户可以自由选择,很酷。但经过昨天的发布后,Amazon Bedrock 不仅是一个货架,还拥有了模型蒸馏和降低幻觉的新能力,全部是业内最迫切需要的功能。

明面上看,是“Choice Matters”,内里更像是“Choosing Amazon Bedrock,matters”。

这是一场不折不扣的“卷王秀”,背后是疯狂的产品能力和研发速度,以至于在生成式 AI 应用爆发的前夜,亚马逊云科技又一次走在了所有人的前头。而这场关于“挤泡沫”的大模型服务商淘汰赛的号角,也正式被亚马逊云科技吹响了。

1

Nova 系列模型官宣,淘汰赛开始

在 re:Invent 2024 上,亚马逊云科技官宣了自研基础模型 Amazon Nova 系列,共包括六款模型:

  • Amazon Nova Micro 是一款仅处理文本的模型,能够以极低的延迟和成本提供响应。

  • Amazon Nova Lite 是一款极具成本效益的多模态模型,能够快速处理图像、视频和文本输入。

  • Amazon Nova Pro 是一款功能强大的多模态模型,可在准确性、速度和成本之间实现绝佳平衡,适合多种任务。

  • Amazon Nova Premier 是亚马逊云科技的最强多模态模型,专为复杂推理任务而生,并可用作“教师模型”来蒸馏定制模型。

  • Amazon Nova Canvas 是一款图像生成模型,能够根据输入的文本或图像生成专业级的视觉内容。

  • Amazon Nova Reel 是一款视频生成模型,能够帮助用户从文本和图像创建高质量视频,适用于广告、营销和培训等内容创作。

这次官宣的 Nova 系列大模型在最新的行业基准测试与第三方评估中,展现出了与顶级模型相媲美的竞争力。

其中,Amazon Nova Micro 在所有 11 项适用的基准测试中,与 Meta 的 LLaMa 3.1 8B 相比,表现出相当或更优的性能。同时,在所有 12 项适用的基准测试中,也与 Google Gemini 1.5 Flash-8B 持平或更优。

Amazon Nova Lite 与 OpenAI 的 GPT-4o mini 相比,在 19 项基准测试中有 17 项表现持平或更优;与 Google 的 Gemini 1.5 Flash-8B 相比,在 21 项基准测试中有 17 项表现相当或更优;与 Anthropic 的 Claude Haiku 3.5 相比,在 12 项基准测试中有 10 项表现相当或更优。

而 Amazon Nova Pro 在与 OpenAI 的 GPT-4o 的 20 项基准测试中,有 17 项表现相当或更优;在与 Google 的 Gemini 1.5 Pro 的 21 项基准测试中,有 16 项表现持平或更优;在与 Anthropic 的 Claude 3.5 Sonnet v2 的 20 项基准测试中,有 9 项表现相当或更优。

根据第三方的对比评估,Amazon Nova Canvas 在性能上优于 OpenAI 的 DALL-E 3 和 Stable Diffusion,并在关键的自动化指标上表现更出色。Amazon Nova Reel 在质量和一致性上优于同类模型,客户更倾向于选择由其生成的视频,而非 Runway 的 Gen-3 Alpha 生成的视频。

值得一提的是,三款模型 Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 在推理速度、性价比和功能性方面展现出了显著的优势。其中,Amazon Nova Micro 主打“快速响应”,凭借每秒 210 个输出 token 的速度,非常适合需要快速响应的应用场景。

其实在 AI 应用领域,用户对 AI 问答、AI 搜索和智能编程等功能的认可度并无太大差异,真正区分服务优劣的关键因素来自于推理速度。更快、更流畅的响应能力,往往意味着该款工具能够无缝集成到企业的生产流程中。

而对大模型推理速度的优化,涉及到模型设计、硬件能力、软件优化等多个层面,要求厂商具备极具竞争力的技术底座。

在底层基础设施上,本次 re:Invent 宣布 Trainium2 正式可用。Trainium2 专门为人工智能工作负载而设计,采用了先进的封装技术,将计算芯片和高带宽内存(HBM)模块集成在一个紧凑的封装(package)内。每个 Trainium2 加速器(单卡)内封装中有两个 Trainium2 计算核心,而每个核心旁边都配备了两块 HBM 内存模块,从而实现了计算和内存的无缝集成。

此外,亚马逊云科技全新发布的专有网络互连技术 NeuronLink 技术能够将多台 Trainium 服务器组合成一个逻辑上的单一服务器,连接带宽可达 2TB/s ,而延迟仅为 1 微秒。

在推理速度之外,大模型的成本问题也是业界和用户的关注重点。据亚马逊云科技介绍,Amazon Nova Micro、Lite 和 Pro 在各自智能类别中,成本比 Amazon Bedrock 中表现最佳的模型至少便宜 75%,同时也是 Amazon Bedrock 中对应类别速度最快的模型。

具体来看,Amazon Nova Micro 每百万 token 的输入价格为 0.035 美元(最低 0.0175 美元),输出价格为 0.14 美元(最低 0.07 美元);Amazon Nova Lite 每百万 token 的输入价格为 0.06 美元(最低 0.03 美元),输出价格为 0.24 美元(最低 0.12 美元);Amazon Nova Pro 每百万 token 的输入价格为 0.8 美元(最低 0.4 美元),输出价格为 3.2 美元(最低 1.6 美元)。

相比之下,Anthropic 的 Claude LLM 每百万 token 的输入价格在 0.8-3 美元之间,输出价格在 2.4-24 美元之间。另据业内人士透露,Sora 至今没有公开使用的主要原因就是其成本高昂。Amazon Nova 系列的定价策略,揭开了大模型成本的“遮羞布”——大模型行业已经从“炫技术”和“画饼”引导行业前进的阶段,转向了“能用、好用、用得起”的新阶段,而这也是 AI 应用爆发的基础。

目前,Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 已全部正式可用,Amazon Nova Premier 预计将在 2025 年第一季度可用。至于 Nova 的下一步计划,Andy Jassy 表示,亚马逊云科技计划开发一种“Any to Any”的万能生成模型,预计于 2025 年中期推出。

“Any to Any”是个典型的“卷王”概念,等于彻底阻断了多模态创业企业的诸多后路,只留下了一条向上的生存之道:多模态 AI 产品必须做到使用无碍,更加贴近 AGI 愿景。如果仅仅局限于文本生成视频或图像的垂直领域,除非技术优势明显,否则其意义将大打折扣。

2

Amazon Bedrock 的新功能,戳中行业“痒点”

Amazon Bedrock 的更新也是本次 re:Invent 的一大亮点。新发布的 Amazon Bedrock Model Distillation 功能使用户能够快速蒸馏出高效的小尺寸模型;Amazon Bedrock Automated Reasoning checks 功能则能利用自动化推理检查来应对模型幻觉,提升模型的精准度。

在实际应用场景中,大型模型虽然知识丰富,却往往响应时间长、成本高;小型模型运行速度快、成本低,但性能通常较差。

正因如此,许多公司已经开始提供专门的模型蒸馏服务,通过将大模型的知识转移到小模型上,可以在提升小模型性能的同时,保持低成本和低延迟。亚马逊云科技通过 Amazon Bedrock Model Distillation 功能,为客户提供了一站式的模型定制服务,极大地简化了模型部署和管理的复杂性,使得小团队也能以较低的成本和较高的效率享受到先进的 AI 技术。

工作原理上,Amazon Bedrock Model Distillation 从教师模型获取响应,通过添加专有数据合成来改进教师模型的响应结果,再借此微调学生模型。

Amazon Bedrock 采用多种数据合成技术以增强教师模型的响应生成,并创建出高质量的微调数据集。这些技术专门针对特定用例而量身打造。例如,Amazon Bedrock 可以通过生成类似的提示词来扩充训练数据集,从而有效提升微调数据集的规模。或者,它也可以使用指定的提示词 - 响应结果作为参考示例,借此生成高质量的教师响应。

借助 Amazon Bedrock Model Distillation,企业只需为给定用例选择最佳模型,并从同一模型家族中选择体量较小的版本,确保以合适的成本满足应用程序的延迟要求。在客户提供示例提示词后,Amazon Bedrock 将自动完成剩余工作以生成响应并微调小模型,并在必要时创建更多示例数据以完成蒸馏过程。如此一来,企业将获得一个与大模型拥有同等专业知识和准确度的新模型,但其速度和运行成本则与小模型相同,使其成为支撑实时聊天交互等生产用例的理想选择。

数据显示,蒸馏出来的新模型与原始模型相比运行速度可提高至 5 倍、运行成本降低高达 75%,在检索增强生成(RAG)等用例中的准确度损失低于 2%。目前,Model Distillation 能够与 Anthropic、Meta 以及最新发布的 Amazon Nova 家族等多种模型配合使用。

Amazon Bedrock 的另一重磅更新——Amazon Bedrock Automated Reasoning checks 也不容小觑。据介绍,Automated Reasoning checks 是业界首个、也是唯一一个用于防止因模型幻觉而导致的事实性错误的生成式 AI 保护措施,它的出现为追求极致精度的生成式 AI 用例开启了新的可能性大门。

尽管大模型更新速度和技术进展已经给大家带来了无数个惊喜,但在今天,即使是最先进的模型也可能产生幻觉,提供不准确甚至误导性的响应。这种幻觉问题仍然是整个行业面临的一个根本性挑战,甚至限制了企业对生成式 AI 技术的信任。在医疗保健、金融服务和政府机构等受监管行业中,这个问题的影响尤为严重。

亚马逊云科技将 Automated Reasoning checks(预览版)作为 Amazon Bedrock Guardrails 中的一项全新保护措施,希望帮助企业以数学方式验证大语言模型所生成响应的准确性,并防止由幻觉导致的事实性错误。

具体来说,Amazon Bedrock Guardrails 负责帮助用户过滤不良内容、编辑个人身份信息(PII)并增强内容安全性与隐私性,因此为生成式 AI 应用程序提供保护措施。用户可以根据拒绝的主题、内容过滤条件、单词过滤条件、PII 编辑、上下文真实性检查以及现在的 Automated Reasoning checks 对策略做出灵活配置。Automated Reasoning checks 使用合理的数学、基于逻辑的算法及推理过程来验证模型生成的信息,从而帮助防止由幻觉导致的事实性错误,确保输出结果与已知事实一致,而非源自捏造或者与事实冲突的数据。

亚马逊云科技人工智能与数据部门副总裁 Swami Sivasubramanian 博士表示,“凭借广泛的模型选择、领先的功能配置(确保开发人员能够轻松将生成式 AI 融入其应用程序)以及对安全和隐私的承诺,Amazon Bedrock 已经成为那些希望将生成式 AI 作为应用程序与业务核心的客户们必不可少的选择。也正因为如此,我们发现 Amazon Bedrock 的客户规模单在过去一年就增长了 4.7 倍。随着时间推移,生成式 AI 逐渐改变企业与客户体验,推理将成为每一款应用程序中的核心组成部分。随着此番新功能的推出,我们正代表客户推进创新,以解决整个行业在将生成式 AI 应用投入生产时面临的一系列重大挑战,特别是幻觉和成本。”

3

智能编程助手?卷!

在基础模型、模型货架之上,位于亚马逊云科技生成式 AI 产品体系最上层的 Amazon Q,也再次成为了吸睛焦点。

Amazon Q 由 Amazon Q Developer、Amazon Q Business、Amazon Q Apps 三部分组成。本次核心更新出现在 Amazon Q Developer 上。

在今年的 re:Invent 大会上,亚马逊云科技宣布对 Amazon Q Developer 进行新一轮增强,相关功能包括自动执行单元测试、提供文档与代码审查智能体,旨在帮助开发人员在整个软件开发过程中加快构建速度,并帮助用户在短时间内解决运营问题。

通过 Amazon Q Developer,开发人员可以利用其自动识别并生成单元测试的能力,从而尽早发现问题,并在更短的时间内实现更高的全面测试覆盖率,显著提高代码的可靠性。这一功能不仅加速了开发过程,还提升了软件质量。

Amazon Q Developer 还允许开发人员生成和维护所有文档,确保他们始终能够访问到关于项目的最新信息。这有助于开发人员快速掌握最新的代码变更,为同事捕捉关键项目详细信息,并提高陈旧文档的可读性,从而提高了整个团队的协作效率。

在代码审查方面,Amazon Q Developer 通过自动检查代码质量、重复部分和安全漏洞来简化代码审查流程。它能够快速向开发人员提供反馈,确保他们能够稳步推进开发流程,并快速部署高质量的代码。

亚马逊云科技下一代开发者体验副总裁 Deepak Singh 总结道,“Amazon Q Developer 从根本上改变了开发人员的工作方式,能够将各种软件开发事务的速度提高达 80%,提供所有同类编码助手中最高的代码接受率,同时可针对多行代码提供建议,代码安全扫描成效在公共基准测试中保持领先,同时提供可自主推理并迭代,以达成复杂目标的高性能 AI 智能体。出于种种现实考量,客户纷纷采用 Amazon Q Developer 来提高软件开发生命周期中各个阶段的开发者生产力。通过今天的发布,我们将以自动化方式解决应用程序构建和运营中那些最为繁琐的环节、消除软件开发中千篇一律的工作,最终成倍提高每一位开发人员的工作效能。”

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部