网易捐赠湖仓管理系统 Amoro 进入 Apache 孵化器

网易捐赠湖仓管理系统 Amoro 进入 Apache 孵化器
2024年03月29日 13:00 DataFunTalk

Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。

北京时间 2024 年 3 月 11 日,Amoro 项目顺利通过投票,正式进入 Apache 软件基金会(ASF,Apache Software  Foundation)的孵化器,成为 ASF 的一个孵化项目。

根据 Apache 软件基金会投票结果邮件[1]显示,共包含了15个约束性投票(binding votes)和19个非约束性投票(non-binding votes)。所有的投票结果均为赞成,没有弃权票或反对票。

01

Amoro 是什么?

Amoro 是建立在开放数据湖表格式之上的湖仓管理系统。长久以来,在 Hadoop、Spark、Flink、Trino 这些开源开放、扩展性极强的生态项目加持下,湖仓成为企业数字化转型中的重要选型。然而湖仓的复杂度,技术门槛导致在企业落地成本依然居高不下。Amoro 旨在向上提供开箱即用的湖仓管理能力,管理系统一词来源于 DBMS(Database Management System)中的 MS,希望 Amoro 可以像数据库的管理系统一样,把湖仓的复杂留给系统,简单留给产品和用户。

Amoro 的功能归纳为以下几点:

提供统一的 Catalog 服务,对齐 Hive Metastore,Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓。

提供全托管的湖仓维护功能(Maintenance Function),包括但不限于数据自优化、数据过期、快照清理、元数据同步等。不同于引擎端实现,Amoro 希望通过全托管的湖仓维护功能打造数据在不同引擎之间的高可用性和开箱即用。

向下支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。

提供开箱即用的管理工具,包括但不限于 DSL 指令、Metrics、Dashboard。

Amoro 自 2022 年 8 月对外开源以来,不断有发现相同痛点的小伙伴加入到社区中来,或使用,或贡献。在这里我必须感谢每一位参与到 Amoro 社区的小伙伴,没有你们 Amoro 无法走到这一步。截止到目前,Amoro 一共有19个上线用户[2],62位贡献者[3]。

(* 部分上线用户)

(* 部分贡献者)

更多有关 Amoro 的特性和适用的场景可以参考:

  • 项目官网:https://amoro.netease.com/(我们正在将它迁移到 https://amoro.apache.org 下 )

02

发展历史

  • 2020 年开始

网易大数据团队在公司内基于 Apache Iceberg 进行湖仓一体架构的探索,希望基于 Apache Iceberg 为公司的业务搭建一套流批统一的存储层。在实践过程中孵化了流式湖仓服务 Arctic。

  • 2021 年内

团队陆续发布 Arctic 0.1/0.2 版本,并率先在网易云音乐算法团队落地,通过 Arctic 管理上百 PB 的数据。随后又在网易传媒、网易有道等业务落地,帮助业务达到了降本增效的目标。

  • 2022 年 8 月

网易正式开源了 Arctic。项目开源后受到了众多企业和开发者的关注,越来越多的用户开始试用 Amoro,并开始上线到生产环境中。同时一些用户也转变为贡献者,共同参与到项目的建设中来。

  • 2023 年 8 月

由于社区对 Arctic 的期望是一个湖仓场景下更加通用的系统,以及考虑到项目长期的发展,Arctic 正式更名为湖仓管理系统 Amoro,并发布新的LOGO和官网。

  • 2024 年 3 月

为了更好的通过社区驱动技术的演进,网易正式将 Amoro 捐赠给 Apache 基金会,提案通过了 Apache 基金会的投票决议。

03

未来规划

Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式的基础功能,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来:

降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极瘦身,让湖仓不再成为互联网企业的专宠。

通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变简单开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得好玩,帮业务清楚湖仓落地在降本增效,性能优化等各方面的价值。

在接下来的 1-2 年,社区将专注于:

打磨全托管 Function 的框架和能力,支持业务按需求扩展,持续优化 Built-in Function 功能,突出如数据自优化功能与对标方案上的性能和成本优势。

以社区驱动的方式持续完善 Paimon、 Iceberg 的对接能力,按需求对接新的 Format。

面向管理的各类 DSL 指令实现,帮助产品更好集成。

Metrics 以及其他管理功能的完善。

04

致谢

Amoro 能顺利加入 Apache 孵化器,离不开社区贡献者多年来的不断努力。在此还要特别感谢给 Amoro 提供指导的各位 Champion 和 Mentors。

Champion:

Mentors:

05

寄语

Amoro 项目有助于实时湖仓技术的生产落地,是开源现代数据架构的重要组成部分,作为该项目的初始支持方,很高兴看到本次 Amoro 项目成功进入 Apache 基金会孵化器,期待在进入孵化器后,Amoro 项目能获得更好的发展。

– 汪源

网易副总裁

网易杭州研究院执行院长

作为项目孵化导师团队的一员,我很高兴能够见证项目以全票通过的方式成功进入 Apache 孵化器,祝贺大家!Amoro 经过多年的精心打造和不懈努力,已经成长为一个充满活力和多元化的社区。在数据湖仓开源技术领域,Amoro 有效地弥补了湖仓管理系统方向的空白,为行业带来了关键的创新和价值。

我坚信,加入 Apache 孵化器后,大家将秉持 Apache 的核心理念和价值观,共同构建一个更加充满活力的社区。通过不断践行 Apache Way,我们将推动 Amoro 不断发展壮大,并持续发布更多优秀功能,为用户提供更加全面和高效的解决方案。

最终,我期待 Amoro 能够早日从孵化器中脱颖而出,成为 Apache 顶级项目,为整个开源社区和行业树立新的标杆。让我们携手共进,为开源事业贡献我们的力量!

– 李钰

阿里云EMR团队负责人,资深技术专家

Apache 软件基金会成员

Apache 软件基金会孵化器 PMC 成员和项目导师

首先恭喜 Amoro 团队,从 2023 年的 ApacheCon 上我们开始寻找支持 Amoro 的 Champion 和 Mentor,到今天终于通过了 Apache 孵化器的投票,这是属于 Apache Amoro 的全新开始,期待 Amoro 社区能够蓬勃发展。我个人自 Amoro 开源以来,一直保持着关注,也非常认同 Amoro 的技术理念,在今天对象存储成为了数据湖事实上的存储引擎的背景下,也非常需要 Amoro 这样的平台来帮助大数据业务管理好海量的数据。另外,我来自 AutoMQ 社区,我们在做新一代的云原生的 Kafka 实现,也希望未来能有机会在数据湖领域,跟 Amoro 社区有更多的合作和共创。

– 周新宇

AutoMQ CTO

Apache 软件基金会成员

Apache 软件基金会孵化器 PMC 成员和项目导师

恭喜 Amoro 顺利成为 Apache 孵化器项目。有幸成为其 Mentor,希望在未来能够帮助其茁壮成长,顺利毕业。

– 姚琴

Apache Kyuubi VP 

Apache 软件基金会成员 

Apache 软件基金会孵化器 PMC 成员和项目导师

恭喜 Amoro 投票通过进入 Apache 孵化器!湖格式的管控一直是个麻烦的问题,Amoro 花了大量精力来打磨这个能力,真正让业务能方便易用的运行起来,对接了 Apache Iceberg 和 Apache Paimon (incubating),相信进入孵化器后能吸引更多贡献者,大家一起把 Amoro 做得更好更方便。

– 李劲松

Apache Flink PMC 成员

Apache Iceberg Committer

Apache Paimon (incubating) PPMC 成员

很高兴能够从0到1地见证 Amoro 从 PPT 立项到生产落地,再从网易内部的闭源项目转变为 Apache way 引导下的开源项目。整个团队在这个过程中不断成长,也接触到很多优秀的社区小伙伴。作为一个开源项目来说,Amoro 才刚刚起步,接下来希望 Amoro 在社区驱动下能够更加深入地在湖仓管理系统的定位上,解决更多企业湖仓应用的难题,并且尝试为这个行业确立湖仓管理的标准和范式。

– 马进

Apache Amoro (incubating) co-creator

恭喜 Amoro 进入到 ASF 孵化器,作为 Amoro 的用户和贡献者,非常荣幸的加入 Amoro 社区大家庭。两年间见证着社区的成长壮大,未来,期待更多的贡献者和用户加入进来,共同建立一个更加蓬勃发展的社区。也祝愿 Amoro 早日毕业成为 Apache 顶级项目,一起加油!

– 仲启尚

Apache Amoro (incubating) PPMC 成员

恭喜 Amoro 进入到 ASF 孵化器,历经2年时间,我作为见证了Amoro从0到1的成长过程。现在加入 ASF 这个大家庭,让 Amoro 继续发光发热。当前,Amoro 目前正朝者湖仓一体,数据入湖,湖功能周边生态加强等方面,希望未来能和其他社区一起携手合作,共同推动社区运营及周边数据湖生态配套软件的深度整合与合作。

– 陈政羽

Apache Amoro (incubating)  PPMC 成员

Apache Flink 中文社区志愿者

作为 Amoro 团队的一员,见证了项目的诞生,发展和壮大。很高兴现在项目又以全票通过的方式成功进入 Apache 孵化器。希望进入 ASF 后 Amoro 能借助更多开源贡献者的力量,继续不断的打磨项目,取得更好的发展。

  – 史大洋

Apache Amoro (incubating)  PPMC 成员

非常高兴 Amoro 项目成功进入到ASF孵化器,Amoro 在数据湖管理上帮助团队解决了维护和优化 Iceberg 这类棘手的问题。随着社区的不断壮大,越来越多的贡献者和团队加入并开始使用 Amoro 项目,相信进入 ASF 后,Amoro 将能够更进一步地丰富数据湖技术生态,同时吸引全球开发者共同完善 Amoro 的功能和能力。期待着 Amoro 在数据湖领域的更多创新和成就!

  – 白旭

Apache Amoro (incubating)  PPMC 成员

首先恭喜 Amoro 顺利进入 Apache 孵化器,为成为 Apache 顶级项目迈出了坚实的一步。相信这一标志性事件后,Amoro 这星星之火,必将在 LakeHouse 领域呈现燎原之势,吸引到全球越来越多的用户和贡献者加入。也希望越来越多的同学在加入这个大家庭后,继续践行“Community Over Code”的社区理念,争做开源的贡献者,共建共享,良性循环。

– 黄刚

Apache Amoro (incubating)  PPMC 成员

作为 Amoro 的开发者之一,非常高兴看到 Amoro 项目进入了 Apache 孵化器!在这个新的起点上,让我们继续努力,不断进步,为 Apache 社区贡献更多更优秀的代码。衷心祝愿 Amoro 未来的发展会更加顺利和美好!

– 叶贤勋

Apache Amoro (incubating)  PPMC 成员

恭喜 Amoro 成功进入 Apache 孵化器!这是一个重要的里程碑,标志着 Amoro 将得到更广泛的认可和支持。在 ASF 的大家庭中,Amoro 将有机会与来自全球的优秀贡献者共同合作,共同推动数据湖管理技术的发展, 希望借助更多开源贡献者的力量,不断完善,提供更好更强的功能和能力,期待看到 Amoro 在孵化过程中取得更多的创新和成功。

– 胡源峰

Apache Amoro (incubating)  PPMC 成员

恭喜 Amoro 项目成功进入 ASF 孵化器!这是 Amoro 发展的重要一步,也是所有社区贡献者共同努力的成果。作为 Amoro 的开发者,我深感荣幸能够参与并见证这个项目从零到一的成长。未来期待与更多开发者合作,共同完善 Amoro 的功能,探索湖仓领域更多的可能性!

– 王涛

Apache Amoro (incubating)  PPMC 成员

湖仓一体这个方向正呈蓬勃发展之势,而湖仓管理系统 Amoro 则扮演着推动这一发展的关键角色。作为一个开源项目,Amoro 使得更多企业能够迅速融入这一新兴技术的潮流,享受技术发展的红利,同时也吸引了更多的开发者和企业参与到项目贡献中来,不断打磨项目功能,丰富实践场景,在这里我必须感谢每一位推动 Amoro 发展的小伙伴。我深信 Amoro 在进入 Apache 孵化器之后,将迎来更为广阔的发展空间,为湖仓一体的发展做出更加卓越的贡献。

– 周劲松

Apache Amoro (incubating) co-creator

引用:

[1] 孵化投票结果: https://lists.apache.org/thread/y4dnowxr3vnlr0o0qj2dkd7vdllxzdx9

[2] 谁在使用 Amoro? : https://github.com/NetEase/amoro/issues/1853

[3] Amoro 贡献者列表: https://github.com/NetEase/amoro/graphs/contributors 

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部