小米随着业务发展面临多计算引擎难协同、表格数据 / 非表格数据的元数据分散管理、数据治理难度大等问题;此外,AI 领域需处理海量非表格数据及 LLM 训练中的中间数据,传统方法较难满足处理、存储和协作需求。
在此背景下,小米先后基于 Metacat 和 Apache Gravitino 构建统一元数据中心,实现表格元数据统一管理。针对非表格数据,引入 Gravitino Fileset,结合 JuiceFS 云上存储,提高 Data / AI 场景非表格数据流转效率,并压缩数据存储成本。针对 LLM 数据处理场景,通过 PySpark、Spark SQL 和 Ray 结合 Fileset 实现非表格数据高效分布式处理。
DataFun在策划7月25-26日深圳DA数智技术大会,会议上策划了数据架构技术迭代实践专题,邀请到了小米软件研发工程师肖杰宝老师来分享,介绍小米是如何接入 Gravitino 构建统一的元数据湖的。
演讲提纲:
小米统一元数据中心实践;
小米数据湖平台架构演进过程;
小米基于 Metacat 统一湖仓元数据实践;
小米引入 Gravitino 的背景和基于 Gravitino 构建元数据中心的实践;
小米 Data / AI 跨场景利用 Gravitino Fileset 实现非表格数据统一管理的实践;
Fileset 基本概念和技术原理;
小米业务接入和迁移 Fileset 的实践;
小米 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行大规模非表格数据处理的实践。
小米某 LLM 业务的非表格数据处理需求和场景;
小米某 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行数据处理的实际案例;
未来规划:
探索 Gravitino 进一步的数据、资源管理能力;
探索 AI 多模态数据管理方案;

肖杰宝,小米公司软件研发工程师,Apache Gravitino Committer。目前主要负责数据湖 Iceberg 和元数据湖 Gravitino 等相关研发工作。
除了两天的技术干货分享,DA深圳大会现场还会组织闪电演讲、闭门会、晚场圆桌交流、Workshop深度培训,讲师们会围绕具体的技术点进行介绍,旨在丰富大家在参会体验,希望大家不虚此行,满载而归。


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有