小米通过PySpark、Spark SQL和Ray结合Fileset实现非表格数据高效分布式处理

小米通过PySpark、Spark SQL和Ray结合Fileset实现非表格数据高效分布式处理
2025年05月05日 13:00 DataFunTalk

小米随着业务发展面临多计算引擎难协同、表格数据 / 非表格数据的元数据分散管理、数据治理难度大等问题;此外,AI 领域需处理海量非表格数据及 LLM 训练中的中间数据,传统方法较难满足处理、存储和协作需求。

在此背景下,小米先后基于 Metacat 和 Apache Gravitino 构建统一元数据中心,实现表格元数据统一管理。针对非表格数据,引入 Gravitino Fileset,结合 JuiceFS 云上存储,提高 Data / AI 场景非表格数据流转效率,并压缩数据存储成本。针对 LLM 数据处理场景,通过 PySpark、Spark SQL 和 Ray 结合 Fileset 实现非表格数据高效分布式处理。

DataFun在策划7月25-26日深圳DA数智技术大会,会议上策划了数据架构技术迭代实践专题,邀请到了小米软件研发工程师肖杰宝老师来分享,介绍小米是如何接入 Gravitino 构建统一的元数据湖的。

演讲提纲:

  • 小米统一元数据中心实践;

  • 小米数据湖平台架构演进过程;

  • 小米基于 Metacat 统一湖仓元数据实践;

  • 小米引入 Gravitino 的背景和基于 Gravitino 构建元数据中心的实践;

  • 小米 Data / AI 跨场景利用 Gravitino Fileset 实现非表格数据统一管理的实践;

  • Fileset 基本概念和技术原理;

  • 小米业务接入和迁移 Fileset 的实践;

  • 小米 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行大规模非表格数据处理的实践。

  • 小米某 LLM 业务的非表格数据处理需求和场景;

  • 小米某 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行数据处理的实际案例;

未来规划:

  • 探索 Gravitino 进一步的数据、资源管理能力;

  • 探索 AI 多模态数据管理方案;

肖杰宝,小米公司软件研发工程师,Apache Gravitino Committer。目前主要负责数据湖 Iceberg 和元数据湖 Gravitino 等相关研发工作。

除了两天的技术干货分享,DA深圳大会现场还会组织闪电演讲、闭门会、晚场圆桌交流、Workshop深度培训,讲师们会围绕具体的技术点进行介绍,旨在丰富大家在参会体验,希望大家不虚此行,满载而归。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部