通用大模型下,锻造专属生成式AI应用靠什么?

通用大模型下,锻造专属生成式AI应用靠什么?
2024年05月10日 13:43 丁科技

构建具有商业价值的生成式AI应用,并将它作为全新生产力,这是越来越多企业的通用选择。不过,用来锻造生成式AI应用的大模型是通用的,而生成式AI应用需要适合自身业务甚至是契合自身特点,简单说,就是要“专门”和“专属”。从“通用”到“专属”的跨越,目前的最优解,仍在于利用好企业自身更具个性化的数据。就此,想要将生成式AI能力提供给每个人的亚马逊云科技,除了提供丰富的模型能力之外,也提出“无数据,不模型”,意在助力更多企业构建全面的数据基座,通过充分发挥数据潜力,加速生成式AI技术落地,并更好地适应企业自身发展需要。前不久以“生成式AI时代的数据基座”为主题的沟通会上,亚马逊云科技方面公开了相关领域的全新进展。

通过数据“定制”基础模型

亚马逊云科技大中华区产品部总经理陈晓建表示:“每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。”

企业自身的个性化数据能够差异化生成式AI应用,亚马逊云科技依托Amazon Bedrock提供通过数据定制基础模型的服务,支持三类模型定制方式:

一是检索增强生成。企业可将自身的知识库、数据库等与生成式AI模型结合,在过程中实时检索和利用企业内部相关数据,提高生成结果的准确性、一致性和信息量。该方式适合控制幻觉、用户隐私数据保护、企业私域知识等应用场景。

二是微调。使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。该方式适合角色理解、输入理解、输出格式控制等应用场景。

三是持续预训练。企业利用内部文档、客户记录等自身专有数据对模型进行持续预训练。该方式门槛相对较高,成本较大,但可以得到一个企业自身定制的行业大模型,适合理解行业领域知识/术语、严控数据合规等应用场景。

持续引领三大必备核心能力

亚马逊云科技认为企业构建生成式AI应用需要具备三项强大的数据能力,包括模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。三大能力涵盖了从基础模型训练到生成式 AI 应用构建的重要场景,有助于企业轻松应对海量多模态数据,提升基础模型能力。通过持续引领上述三大核心能力,亚马逊云科技助力企业构建数据基座,从而在在生成式AI时代取得成功。

先看利用现有数据支持微调或预训练模型的能力。

利用现有数据支持微调或预训练模型,从原始数据集到训练出基础模型需要解决三个主要问题:找到合适的存储来承载海量数据、清洗加工原始数据为高质量数据集、对整个组织内数据的发现编目治理。

数据存储方面,Amazon S3 拥有超过 200 万亿个对象,平均每秒超过 1 亿个请求,在容量、安全和功能上都能满足微调和预训练基础模型对数据存储的要求;专门构建的文件存储服务 Amazon FSx for Lustre可以提供亚毫秒延迟和数百万 IOPS 的吞吐性能,进一步加快模型优化的速度和降低成本。

数据清洗方面,Amazon EMR Serverless 和 Amazon Glue 无服务器数据集成服务,可以帮助企业轻松完成数据清洗、去重、分词等操作,专注于生成式 AI 业务创新。

数据治理方面,Amazon DataZone可以让企业跨组织边界大规模地发现、共享和管理数据,并且提供简单易用的统一数据管理平台和工具,来解锁所有数据的潜能。

再看将现有数据快速结合模型产生独特价值的能力。

将现有数据快速结合模型产生独特价值,意在突破基础模型缺乏垂直行业专业知识、缺乏时效性、生成错误信息等局限性,给出高质量答案。

亚马逊云科技通过检索增强生成(RAG)技术来解决上述问题,该技术也、被业界普遍认为是实现数据与模型结合的主要途径之一。该技术通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

向量存储的理想情况是将向量搜索和数据存储结合在一起,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,在提升数据查询性能的同时,也让客户在构建生成式 AI 应用程序时拥有了更大的灵活性,从而释放更多的价值。特别是,亚马逊云科技还专门构建了图数据库Amazon Neptune、推出了分析数据库引擎,能将图数据分析速度提升 80倍,从而从图形数据中快速获取洞察,实现更快的向量搜索。

最后看有效处理新数据,助力生成式AI应用飞速发展的能力。

对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟,这就让通过新数据的更优处理来降本增效的需求更突出。

Amazon Memory DB内存数据库,可以通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。该数据库能存储数百万个向量,响应时间只需几毫秒,并能以99%的召回率实现每秒百万次的查询性能。

亚马逊云科技可提供无服务器数据库服务和 Amazon OpenSearch Serverless 用于向量搜索,帮助生成式AI应用快速占领市场。无服务器的速度加上生成式 AI 的力量,能够让用户最大限度减少运维负担和成本,消除性能瓶颈,从而更好地专注于生成式 AI 业务创新。在这个过程中亚马逊云科技负责无服务器背后的安全隔离、故障处理、负载均衡、自动扩展、利用率监控等复杂工作,让用户彻底消除后顾之忧。

在具体的应用领域,比如音乐领域,Amazon Music分析用户和歌曲的特征,并将它们转换成向量以提高推荐精准度。Amazon Music已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,为全球用户提供实时音乐推荐。Amazon Music目前在 Amazon OpenSearch中管理着10.5亿个向量,并能够处理每秒高达7100次的查询峰值,有效支撑其推荐系统。

亚马逊云科技方面表示,希望每一个企业在生成式AI时代借助其服务打造坚实的数据基础,从而高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。而新数据又会继续提升模型的准确度,创造更好的用户体验。这样的模式就会产生生生不息的正向生成式AI数据飞轮,带动企业业务走向成功。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部