未来的数据架构是真正可移植的

未来的数据架构是真正可移植的
2024年09月13日 16:23 InfoQ

作者 | Alex Merced

译者 | Sambodhi

策划 | Tina

导读:在当今快速发展的数字时代,数据的管理和利用正经历着前所未有的变革。开放标准和技术,如 Apache Iceberg 和开放式湖仓目录,正在为企业提供前所未有的灵活性和控制力,打破了传统专有系统的束缚。本文将深入探讨这些创新技术如何推动数据架构的演进,帮助企业在竞争激烈的市场中保持领先地位。无论你是数据架构师、技术爱好者,还是企业决策者,这篇文章都将为你揭示数据未来的无限可能。准备好迎接下一波数据创新浪潮了吗?让我们一同探索!

开放标准正迅速成为可扩展业务价值的基础,推动着创新、势头和行动。随着 Apache Polaris(一个用于跟踪 Apache Iceberg 表的开源湖仓目录实现)最近的孵化,我们正在迈向一个真正实现数据及其治理可移植的世界,Dremio 高级技术布道者 Alex Merced 说。这意味着你可以使用各种数据工具,而无需重复数据或妥协治理。

多年来,企业一直依赖 Teradata 和 Oracle 等专有数据仓库。尽管这些数据仓库性能强大,但却导致了昂贵的供应商锁定,限制了创新和灵活性。因此,移动数据或集成不同技术不仅繁琐,而且成本高昂。

Apache Iceberg —— 颠覆者

数据湖的兴起提供了一种新的数据存储方式——将原始数据存储在廉价的存储介质上。然而,数据湖的性能和管理能力难以与传统数据仓库的性能和管理能力相媲美。

Apache Iceberg 是一种开放式表格式,能够实现类似于数据仓库的表,并提供与传统数据仓库相同的 ACID(原子性、一致性、隔离性、持久性)保证。这样就结合了数据仓库的性能以及数据湖的灵活性和低成本,因此被称为湖仓一体。

Apache Iceberg 具有独特的能力,能够提供时间回溯和模式演进等功能——这些功能曾经是昂贵的专有数据仓库独有的——而不会将企业局限于单一供应商的生态系统中,这使其独树一帜。随着企业越来越意识到独立控制数据的重要性,Iceberg 的开源特性意味着你可以将其集成到现有的数据基础设施中,而不被局限于特定的技术堆栈中。这体现了对自由和灵活性的拥抱。

湖仓目录的登场

Iceberg 只是湖仓一体架构中的一个组成部分,此外还有存储层(即数据湖)和湖仓目录(用于跟踪表的工具,以便其他工具发现 Iceberg 表)。传统的元数据目录或企业数据目录(如 Collibra 或 Alation)有助于为人类理解可用数据提供上下文,而湖仓目录则不同。它充当表元数据的目录,使工具能够发现和使用这些表。从本质上讲,一个目录用于人类发现数据,另一个供系统发现数据。

事实上,目录不仅仅是为你常用的工具列出表格。它们正在演变为通用治理中心,在这里,你可以设置访问规则,任何工具在访问你的表时都能遵循这些规则。这非常有价值,因为过去为每个工具单独设置访问权限会导致治理不一致。当目录成为表治理的核心时,基于开放标准构建目录至关重要,这样可以避免在目录层面出现供应商锁定。

随着越来越多的公司采用 Apache Iceberg 以及 Apache Polaris(孵化中)和 Nessie 等开放式湖仓目录,重点将逐渐转向增强这些开放标准,以支持各种专用计算引擎的需求。

目标很明确:创建一个生态系统,最大限度地提升灵活性,最小化供应商锁定。对于企业来说,这意味着投资于开放技术,以满足当前需求,并支持未来的增长和适应。这不仅是为了跟上竞争的步伐,更是为了为下一波数据创新浪潮创造条件。

结   论

随着我们进一步迈入人工智能时代,开放数据架构的重要性将日益增加。人工智能和机器学习算法依赖数据。简单来说,数据越多、种类越丰富,它们的性能就越好。

为了为人工智能和机器学习项目提供所需的数据,你需要拥有灵活开放的数据架构,以便高效地提供数据。采用 Apache Iceberg 等表格格式以及 Apache Polaris 和 Nessie 等开放目录的湖仓一体正在为这个世界敞开大门。

数据的未来是开放的。随着企业不断认识到专有系统的局限性,他们将转向 Apache Iceberg 和开放式湖仓目录等解决方案,以获得所需的控制力和灵活性。被锁定在单一供应商生态系统中的日子已经屈指可数。转向开放标准不仅仅是一种趋势,而是任何希望在数字时代蓬勃发展的企业所必需的。选择很明确:要么适应,要么落后。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部