注册

新浪财经APP

小米通过PySpark、Spark SQL和Ray结合Fileset实现非表格数据高效分布式处理

小米通过PySpark、Spark SQL和Ray结合Fileset实现非表格数据高效分布式处理

2025年05月05日 13:00 DataFunTalk

语音播报缩小字体放大字体微博微信 0

小米随着业务发展面临多计算引擎难协同、表格数据 / 非表格数据的元数据分散管理、数据治理难度大等问题；此外，AI 领域需处理海量非表格数据及 LLM 训练中的中间数据，传统方法较难满足处理、存储和协作需求。

在此背景下，小米先后基于 Metacat 和 Apache Gravitino 构建统一元数据中心，实现表格元数据统一管理。针对非表格数据，引入 Gravitino Fileset，结合 JuiceFS 云上存储，提高 Data / AI 场景非表格数据流转效率，并压缩数据存储成本。针对 LLM 数据处理场景，通过 PySpark、Spark SQL 和 Ray 结合 Fileset 实现非表格数据高效分布式处理。

DataFun在策划7月25-26日深圳DA数智技术大会，会议上策划了数据架构技术迭代实践专题，邀请到了小米软件研发工程师肖杰宝老师来分享，介绍小米是如何接入 Gravitino 构建统一的元数据湖的。

演讲提纲：

小米统一元数据中心实践；
小米数据湖平台架构演进过程；
小米基于 Metacat 统一湖仓元数据实践；
小米引入 Gravitino 的背景和基于 Gravitino 构建元数据中心的实践；
小米 Data / AI 跨场景利用 Gravitino Fileset 实现非表格数据统一管理的实践；
Fileset 基本概念和技术原理；
小米业务接入和迁移 Fileset 的实践；
小米 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行大规模非表格数据处理的实践。
小米某 LLM 业务的非表格数据处理需求和场景；
小米某 LLM 业务利用 PySpark 和 Ray 结合 Fileset 进行数据处理的实际案例；

未来规划：

探索 Gravitino 进一步的数据、资源管理能力；
探索 AI 多模态数据管理方案；

肖杰宝，小米公司软件研发工程师，Apache Gravitino Committer。目前主要负责数据湖 Iceberg 和元数据湖 Gravitino 等相关研发工作。

除了两天的技术干货分享，DA深圳大会现场还会组织闪电演讲、闭门会、晚场圆桌交流、Workshop深度培训，讲师们会围绕具体的技术点进行介绍，旨在丰富大家在参会体验，希望大家不虚此行，满载而归。

0条评论|0人参与网友评论

分享到微博

最热评论

最新评论

更多精彩评论>>

头条号入驻

DataFunTalk 大数据、人工智能技术的分享与交流

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部