InfoQ 2022 年趋势报告：人工智能、机器学习和数据工程篇_

作者 | Srini Penchikala, Dr Einat Orr, Rags Srinivas 等

译者 | 明知山

策划 | 丁晓昀

本文是对 2022 年 AI、ML 和数据工程 InfoQ 趋势报告播客的总结，涉及 AI、ML 和数据工程领域的关键趋势和技术。

在这份年度报告中，InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状，以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线，并附带了评论，帮助读者了解这些领域技术的发展状况。

在今年的播客中，InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士，他是开源项目 LakeFS 的联合创始人，也是 Treeverse 的联合创始人兼 CEO，他在最近举行的伦敦 QCon 大会上发表了演讲。

下面的内容总结了其中的一些趋势，以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

我们认为自然语言理解（NLU）和自然语言生成（NLG）技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展，包括百度基于信息实体的增强语言表示（ERNIE）、META AI 的 SIDE，以及特拉维夫大学的长语言序列标准化比较（SCROLLS）。

我们还报道了几个与 NLP 相关的开发成果，如谷歌研究团队的 Pathways Language Model（PaLM）、EleutherAI 的 GPT-NeoX-20B、Meta 的 Anticipative Video Transformer（AVT），以及 BigScience Research Workshop 的 T0 系列 NLP 模型。

深度学习进入早期大众阶段

去年，随着越来越多的公司使用深度学习算法，我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来，深度学习解决方案和技术已经被广泛应用在企业中，因此我们正在将其从早期采用者阶段移到早期大众阶段。

已经有一些关于这个主题的播客（无代码深度学习和可视化编程）、文章（基于机构增量学习的深度学习系统、松散耦合的深度学习服务、使用 Apache Spark 和 Nvidia GPU 加速深度学习）和新闻（BigScience 的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型 Minerva、OpenAI 的开源框架 Video PreTraining）。

视觉语言模型

与图像处理相关的 AI 模型发展还包括 DeepMind 的 Flamingo，这是一种 80B 参数的视觉语言模型（VLM），结合了单独预训练的视觉和语言模型，可以回答用户用通过图像和视频提出的问题。

谷歌的 Brain 团队发布了 Imagen，一个文本到图像的 AI 模型，可以根据文本描述生成逼真的场景图像。

另一个有趣的技术，数字助理，现在也进入到早期大众阶段。

流式数据分析：

物联网和实时数据摄取

流式架构和流式数据分析已经被越来越多的公司采用，特别是在物联网和其他的实时数据摄取和处理场景中。

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外，Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲，强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

作为对这一趋势的反映，流式数据分析和技术，如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务（Data Lake as a Service）也是如此，在去年获得了进一步的采用（如 Snowflake）。

AI/ML 基础设施：规模化构建

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础，任何 AI/ML 计划都不可能长期取得成功。

在今年的 GTC 大会上，NVIDIA 发布了用于 AI 计算的下一代处理器 H100 GPU 和 Grace CPU Superchip。

资源协调器（如 YARN）和容器编排技术（如 Kubernetes）现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准，在将应用程序部署到云端方面，多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化，包括模型的生产部署和后期支持。

在创新者阶段也有一些新进入者，包括云不可知 AI 计算、知识图、AI 结对编程（如 Github Copilot）和合成数据生成。

知识图继续在企业数据管理领域占有一席之地，它为不同的场景（包括数据治理）提供了实际的应用。

基于 ML 的编码助手

GitHub Copilot

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务，通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数，开发人员不需要从头编写这些函数，从而提升了开发人员的工作效率。除了 Copilot，未来也会出现更多的解决方案，它们提供了基于 AI 的结对编程，并自动化软件开发生命周期中的大部分步骤。

Nikita Povarov 在“面向开发者的 AI：是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作，让他们变得更有效率。在软件开发当中，我们可以清楚地看到 AI 既执行人工任务，又提升了程序员的工作效率。

合成数据生成：保护用户隐私

在数据工程方面，自去年以来，合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据，有助于保护用户隐私。

亚马逊云科技推出了 SageMaker Ground Truth 等技术，用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务，可以生成数百万张自动标记的合成图像。

在 AI/ML 应用的整个生命周期中，数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲，并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭，并为审计提供相关信息。

在这次大会上，Ismaël Mejía 讨论了如何在最新的数据管理方法（包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品）中应用开源 API 和开放标准。

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中，作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系，数据团队可以使用字段级沿袭。对沿袭创建进行自动化，并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术（VR/AR/MR/XR）以及 MLOps。

MLOps：ML 和

DevOps 实践的结合体

MLOps 已经得到了很多公司的关注，因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

Francesca Lazzeri 在 QCon Plus 大会上提到，MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产，并提供编排服务以简化机器学习生命周期的管理。

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化，为我们的用户提供持续的价值。

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西，关键要点包括使用开源技术进行模型训练和部署，并通过机器学习管道自动化端到端 ML 生命周期。

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

在播客中讨论的其他主要趋势如下。