
3月29日,快手独家承办的Apache Hudi 亚洲站首场技术沙龙在北京快手总部成功举办。超230人到场深度参与,线上直播观看突破1.6万人次。来自快手、美团、抖音、华为、京东等企业的七位技术专家齐聚,分享Apache Hudi在数据湖领域的最佳实践与应用案例。
Hudi社区领袖远程助阵
在活动开场视频致辞中,Onehouse CEO&创始人、Apache Hudi PMC Chair Vinoth Chandar高度肯定了中国开发者对Hudi社区的核心贡献,指出中国开发者不仅贡献了超半数的代码和核心功能开发,更依托快手、阿里、字节、华为、京东、美团等头部企业的关键业务场景验证,推动了Hudi的技术实践。他宣布Hudi已完成里程碑式的1.0版本升级,涵盖存储格式优化、索引体系重构、并发控制增强、Flink深度集成及增量处理能力突破;未来1.1和1.2版本将聚焦于将Spark流处理方案迁移至Flink生态、开发Presto与File Group Reader的集成功能,并新增索引剪裁、多语言支持、非结构化/半结构化数据扩展等特性。Vinoth最后呼吁全球开发者积极参与社区共建,通过问题探讨与经验共享推动技术创新,同时预祝活动圆满成功。

快手数据基建的回顾与展望
作为活动承办方代表,快手研发线数据平台部负责人王静在开幕致辞中系统阐释了数据驱动与开源共建的双重实践:她指出,快手依托“AI+Data”战略,以日均4.01亿用户、126分钟使用时长的业务体量,构建了10EB级存储规模与千万级算力集群的技术底座,深度应用Spark、Flink、ClickHouse、Doris及Apache Hudi等大数据引擎。
自2022年初基于Hudi构建湖仓一体系统以来,已实现BI与AI场景规模化落地,技术价值集中体现于三方面——通过流批一体存储优化样本数据处理成本与效率,以实时数据高速入湖提升核心报表时效性,借助宽表模型重构数仓架构简化链路并加速决策。王静特别强调,快手秉持“拥抱开源,开放共享”理念,不仅将自研的Blaze向量化引擎开源赋能滴滴、汽车之家、58同城等企业,更以承办Hudi亚洲首站沙龙为契机,推动社区共建数据湖生态,探索“增量计算”、“向量化引擎”、“流批一体”等前沿方向,并展望未来依托数据湖系统建设企业的“数据中枢”,释放更大业务价值。

五大分享议题精彩回顾
01《Apache Hudi 在快手AI、BI场景的数据湖实践》
在《Apache Hudi 在快手AI、BI场景的数据湖实践》议题中,快手数据架构研发专家、Apache Hudi Committer-喻兆靖、快手数据架构研发专家-钟靓共同分享了Apache Hudi 在快手AI、BI场景中的实践与应用,首先整体阐述快手数据湖的整体生态建设情况,快手数据湖以业务为导向,从提升易用性、稳定性和功能丰富度上持续推进AI、BI场景下的数仓架构升级。
在AI方向,以 AI DataLake 为代表的流批一体化Hudi数据湖,通过全链路向量化、消费侧实时订阅、逻辑宽表列拼接等功能实现架构迭代,数据组织提交模式优化、数据保序等优化保障数据质量,以及冷热数据分层存储、元数据组织优化等手段增强稳定性,解决了计算存储冗余、消费成本高、时效差、应用复杂度高等问题,构建出了统一生产、统一存储、流批一体的AI场景数据湖仓架构。目前存储规模达到EB量级,支撑每秒TB/s的吞吐流量,最小支持数据端到端时延30s以下,同时服务线上实时、离线训练,节省数千万级成本,为快手推荐、广告、搜索等业务构建起了未来的AI存储底座。
在BI 方向,Hudi在主站、电商、商业化、海外、本地生活等各个重点业务侧都有大规模落地,在这些方向的 ODS 层提升时效,在中间层提高时效的同时减少模型数。在快手BI应用场景中,围绕数仓分层展开:ODS层通过更新流入湖和日志流入湖实现高效数据接入;中间层则聚焦宽表拼接和增量更新优化。运用非阻塞并发处理、可扩展哈希分桶及Sort Merge Compaction等技术解决Hudi痛点优化用户体验。快手在解决内部业务挑战的同时,深度参与Apache Hudi社区共建,仅2024年一年团队已经贡献44项核心优化,后续也将继续保持,持续为Hudi生态建设出一份力。

02《美团增量湖仓Beluga的架构设计与业务实践》
在《美团增量湖仓Beluga的架构设计与业务实践》议题中,美团数据平台部数据湖架构团队负责人王萌萌老师深入阐述了Beluga架构的创新设计与业务价值。美团增量湖仓Beluga通过创新架构设计有效解决了数据湖场景下的存储冗余与长尾更新问题。系统基于Hudi社区0.12版本构建,提出"一表三模式"核心架构,利用行式HFile加速流写入、列式Parquet优化批处理的两级分桶策略,配合独立MetaServer实现元数据精细化管控与表服务自动化运维。该架构与Flink、Spark、Presto等引擎集成,形成流批一体处理链路,上线后显著压缩数据链路、降低运维复杂度,使数据时效性提升至分钟级并节约了存储计算成本。
展望未来,Beluga将持续拓展增量计算能力,从部分更新功能到更多层的增量算子渗透,针对不同业务特征定制Compaction策略,构建端到端运维体系应对混合负载挑战。同时打造新一代生产运营平台,在调度管理、血缘追踪等维度实现流批一体化支持,通过更友好的交互体验释放数据湖全域价值,向更多业务场景渗透。

03《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》
在第三个议题中,抖音集团数据湖存储技术专家、Apache Hudi Committer-耿筱喻,抖音集团推荐架构工程师-姚翔老师共同带来分享。抖音基于Apache Hudi构建的SampleCenter平台,解决了传统Kafka行存方案在EB级推荐数据场景下的三大核心痛点——格式约束缺失、列更新能力不足及存储冗余,通过统一湖存储架构实现流批一体入湖。结合Flink完成实时样本与标签的智能拼接,并设计动态分桶策略。平台化管控体系覆盖元数据升级、血缘图谱、质量监控等模块,日均处理PB级数据。针对大模型长序列特征场景,采用UID动态分桶算法,实现千亿级序列与样本的精准关联;同时通过Backfill回溯表与主表行键对齐,减少特征调研IO的放大,支持DSL/SQL双模式轻量化验证,实验数据通过Compaction无缝迁移至生产表,缩短算法迭代周期,提升冷启动效率,为直播、电商等核心业务提供高弹性、低成本的数据湖解决方案。
抖音技术团队针对万级列表的查询与写入难题,优化SQL解析引擎;通过重构Flink写入链路,消除时间戳屏障依赖,入湖吞吐提升超100%。同时,集成Native引擎加速特征抽取,结合异步服务框架实现任务可视化运维。这些优化使CPU资源消耗降低30%,内存占用减少50%,并为超大规模数据场景提供了稳定高效的底层支持。目前,该架构已覆盖抖音90%以上推荐业务,日均处理数据达PB级,推动推荐系统持续向高效化、平台化演进。

04《Hudi在华为云的大规模应用实践与深度优化》
在第四个议题中,华为云EI Lakehouse负责人 & Apache Hudi Committer孟涛老师分享《Hudi在华为云的大规模应用实践与深度优化》。华为早期采用典型的 Lambda,但面临数据冗余、一致性差及成本高昂等问题。为构建高性价比的实时数仓,团队探索了Kafka、OLAP引擎(如Doris)等替代方案,最终选择Hudi作为实时数据湖的基石。在大规模推广Hudi过程中,面临批量作业切换实时作业后集群压力成倍上升、入湖Upsert写入性能不佳,无法支持大流量作业、流式加工,性能瓶颈严重,替换消息队列成本难以下降、实时链路Schema变更困难,流程太长、海量hudi表难以运维,业务和平台都很苦痛等问题。针对上述问题,核心优化实践包括:
1)ODS入湖写性能优化:
思路与收益:华为进行了去avro操作,实现RFC-46 Flink相关代码,将原始RowData直接作为处理单元,在写入过程存储rowData 为byte arry格式,减小gc影响。实测写入性能提升1-10倍,Shuffle数据量下降40%,网络带宽占用减少60%。
2)消息队列平替-流读优化:
思路与收益:在deltaCommit文件里面,记录本次写入的block块在log中的offset地址。修改流读逻辑,Flink解析deltacommit的同时,将offset解析出来,下发下游流读。优化后1GB的log流读,性能提升1倍,且读取消耗流量下降。
3)围绕CDC入湖-动态Schema变更:
思路与收益:上游输入json数据,而非结构化的数据,避免引擎校验,Hudi内核展开json,生成结构化数据。相同结构的row写到一个block中。读取log时,schema on read读取,实现业务无感知的字段扩展。
4)千列稀疏宽表实时化构建-列簇:
思路与收益:hudi引入列簇概念;将强关联字段划分为独立列簇,支持多任务并发写入;实现稀疏矩阵式存储布局,配合Hudi的聚类Compaction机制,写入吞吐量提升3-5倍,查询性能优化2个数量级。
另外,为简化多格式表的管理,华为自主研发LDMS统一湖仓管理服务,提供表生命周期自动化管理、数据布局优化、CBO统计信息采集、索引推荐及元数据安全巡检等能力,运维效率提升3倍以上。未来演进方向,一是推动相关RFC代码合入,反哺社区;二是引入Apache Arrow 作为原生内存格式,构建向量化查询引擎,三是尝试和AI结合构筑更加智能的数据湖平台。

05《数据与计算新范式:京东数据湖架革新之路》
在最后一个议题中,京东零售资深技术专家、Apache Hudi Committer张越老师分享《数据与计算新范式:京东数据湖架革新之路》。京东针对传统数据湖时效性低、元数据割裂及扩展性受限等痛点,提出了湖表多模存储架构。该架构通过统一IO抽象层与逻辑表视图能力,实现HDFS集群、Kafka/Hbase等异构存储的透明化集成,形成流批一体化解决方案。优化策略包含三个方面:1)采用缓冲层+持久层分级存储,热数据先写入高性能HDFS缓冲层,经Compaction异步迁移至共享存储,使Hudi写入性能提升2倍,CP耗时降低70%,Hudi写入任务稳定性提升98%;2)二进制流拷贝技术绕过序列化/反序列化及压缩解压缩流程,直接按列组拷贝合并小文件,使Class执行过程耗时锐减93%,计算量减少95%;3)构建DataBus、EasyStudio等工具链生态,覆盖数据全生命周期管理,并深度支持Flink/Spark流批处理与Doris等查询引擎对接,形成闭环能力。
该架构在京东核心业务场景中取得显著成效:流量资产升级中,通过多模存储解决数据倾斜问题,日处理2700亿流量时写入稳定性提升至98%,大促期间服务等级协议(SLA)达成时间提前5小时;交易场景利用主键索引将行级更新成本降低79%,数据时效从T+2压缩至5分钟。未来将持续深化技术突破,重点推进LSM树存储结构优化(将MOR表日志结构转为树状组织,结合列族提升宽表读写性能)、秒级时延能力(通过Kafka/Hbase直写入湖+元数据Union查询突破分钟级延迟瓶颈)、流式外键关联(构建外键索引支持维表历史状态回刷,解决Flink状态依赖问题),进一步释放数据实时价值。

闭幕致辞
活动进入尾声之际,快手研发线数据引擎中心负责人李远策上台发表了参会感受:“方才聆听诸位行业专家的深度见解,这些凝聚实战智慧的真知灼见,不仅令我本人获益良多,更让我们愈发坚信:2025年数据湖技术即将迎来更大的业务场景和技术挑战,当数据呈指数级增长,唯有以创新驱动为核心,才能在这场技术浪潮中持续领航。”

活动花絮







财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有