最新AI存储业界方案调研解读

最新AI存储业界方案调研解读
2024年06月17日 13:00 DataFunTalk

活动背景

速度往往决定着商业的成败。

模型训练的加速意味着企业能够更快地开发出新的AI产品或服务,从而更快地推向市场,满足客户需求。这种快速响应能力有助于企业在竞争中抢占先机,获得市场优势。不仅如此,加速还意味着企业能减少训练所需时间,从而降低硬件资源的占用和能源消耗,带来更高的ROI。

Alluxio作为全球领先的AI高性能数据访问平台,一直被广泛的应用于AI模型训练与推理的核心阶段。继AI Infra Meetup 北京站之后,Alluxio携手云原生数据库管理软件KubeBlocks一同走进杭州,邀请到来自数字金融、视频网站、智慧出行等头部企业的AI Infra专家,将为AI领域的技术伙伴们带来一场精彩线下沙龙。

诚挚邀请AI Infra 相关的IT/技术负责人、架构师、开发及研究人员、生态合作伙伴报名参与。

活动信息

活动时间:2024年6月22日(周六)14:00-17:00

联合主办:Alluxio社区、KubeBlocks社区

支持社区:DataFun、ITPUB

活动地点:杭州市余杭区五常街道赛银国际12-901

沙龙亮点抢先看

主题一:Alluxio AI 3.2发布 - 新一代AI/ML训练中台的数据I/O解决方案

演讲摘要

在以数据驱动的AI时代,高效访问存储中的大量数据对于模型训练和服务至关重要。然而,I/O 挑战往往会阻碍性能并限制 GPU 的利用率。

本次分享,我们将现场发布Alluxio AI的最新版本,新版本将带来众多新功能和亮点。同时傅正佳博士将介绍基于 Alluxio 构建的高性能数据访问层,如何克服 I/O 挑战并显著提高 GPU 利用率。通过丰富的用户案例和实验数据,您将了解在Alluxio中缓存数据集和模型的方法以及在性能方面的提升。

主题二:把向量数据库跑在K8s上,以Qdrant为例

演讲摘要

近年来,随着人工智能和机器学习技术的不断发展,向量数据库在许多应用场景中发挥了重要作用。向量数据库能够高效地存储和检索基于向量的数据,为相似性搜索、推荐系统等提供支持。

然而,传统的向量数据库部署和运维通常较为复杂,迫切需要一种更加敏捷、可扩展的解决方案。本次演讲将以开源的向量数据库 Qdrant 为例,探讨如何通过KubeBlocks将其部署在 Kubernetes 容器平台上,充分利用 K8s 的弹性扩展、自动化部署等特性,打造一个高可用、易维护的向量数据库集群。

向量数据库概述及 Qdrant 简介;

在 K8s 上部署 Qdrant 的架构设计;

核心配置项讲解,如持久化存储、扩容策略等;

演示 Qdrant 在 K8s 上的部署过程;

测试 Qdrant 在 K8s 上的性能和可用性;

总结和展望,探讨向量数据库在 K8s 上的发展趋势。

主题三:蚂蚁大模型存储(PCache)汇报

演讲摘要

当前随着大模型技术的快速发展,训练的数据规模越来越大,数据的模态也越来越复杂。比如在多模态场景中,单次训练的样本图片数量可能达到十亿甚至百亿级别并且需要同时处理视频、图片、音频、文本等多种模态数据。为了提高训练效率,减少训练过程中因数据读写开销导致的GPU资源浪费,存储系统需要能够支撑海量文件的元数据管理并具备扩展能力。除此之外,训练任务运行时checkpoint写入频率也在逐步加快,从天级到分钟级,对于千亿以上参数规模的训练任务每秒写入吞吐会达到TB级数据。这些都对当前的存储产品都是一个巨大挑战。为了解决这些问题,蚂蚁构建了一套大模型缓存加速系统PCache,采用近端加速以及面向AI数据特性的缓存策略,从数据预处理到样本数据读取,再到运行时checkpoint写入,为各类型的大模型训练任务提供海量数据场景下,读写全链路整体的高性能和低成本的解决方案。除了数据链路,为了适应当前多AI算力中心的趋势,PCache还采用云原生的架构,提高了建站效率和故障时的高可用性;以及通过云原生的全增量一体数据同步系统提高了各AI站点之间的数据迁移效率,为训练任务的算力调度提供了基础保障。

大模型存储的问题和挑战;

AI 存储业界方案调研;

蚂蚁 AI 存储加速方案。

主题四:Alluxio在AI训练场景的应用

演讲摘要

在AI训练中,存储是至关重要的,然而其高成本、低效率和复杂的管理常是挑战。Alluxio作为高性能分布式缓存系统,在实际生产中能有效解决这些难点。通过缓存数据、简化管理及提供统一接口,极大地提高了数据访问速度和效率。与各种存储系统的无缝集成降低了成本,简化了管理流程。Alluxio缓存系统的引入,更好地支持了B站大规模AI训练,加速AI技术的发展与应用。

B站AI训练场景介绍;

Alluxio如何提升AI训练效率;

未来规划。

主题五:Alluxio在自动驾驶数据闭环中的应用

演讲摘要

中汽创智自动驾驶在数据闭环的建设中,调研了Juicefs,Alluxio等开源分布式存储中间层产品,决定采用基于Alluxio实现共享存储以及加速的问题,解决了困扰研发多时的并发数据访问卡顿严重、重复数据下载、数据重复浪费空间、手动管理存储容量导致的效率低下和操作风险高等问题,使得数据系统的可用性提升x10,成本减半,易用性大大提升,我们为何选择Alluxio?在自动驾驶跨集群中如何使用?具体详情,敬请期待。

自动驾驶数据闭环介绍

Alluxio在采集标注训练以及合规平台的一些应用场景

目前存在的问题以及未来规划

活动议程

互动礼品

凡到场参与活动的小伙伴,即有机会获得“关注好礼”KubeBlocks帆布袋一个 + Alluxio定制小熊风扇一个。

同时现场设置了填问卷抽好礼活动,更多精美礼品等着你✌️

Alluxio

Alluxio是全球领先的针对分析和AI的高性能数据平台提供商,可加速企业AI产品价值变现,并最大化基础设施的投资回报率。Alluxio数据平台位于计算与存储系统之间,能够在数据工作流的各个阶段为数据平台上的工作负载提供统一视图。无论数据位于何处,该平台均可提供高性能的数据访问,简化数据工程,提高GPU利用率,并降低云计算和存储成本。企业无需使用专用存储,即可大幅加速模型训练和模型服务,并在现有数据湖上构建AI基础设施。

Alluxio在头部投资者的支持下,为全球科技、互联网、金融和电信企业提供服务,目前全球排名前 10 的互联网公司中有 9 家在使用Alluxio。更多信息,请访问 www.alluxio.com.cn。

KubeBlocks

云猿生数据成立于 2022 年 6 月,是一家云原生开源数据库技术和多云、多引擎的数据库服务商,致力于为全球客户提供优质、开放、精益的云原生和云中立的数据库产品和解决方案。公司提供开源数据基础设施控制平面 KubeBlocks,商业化版本 KubeBlocks Cloud,关系型数据库 WeSQL,分析型数据库 FoxLake 等产品。 

云猿生数据已为多家企业提供数据库服务,在互联网行业、金融行业、传统 IT 企业、车联网行业均有客户案例。同时,KubeBlocks 与多家企业完成兼容性认证,共同为客户提供更加全面与优质的服务。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部