Uber最新开源Manifold，助力机器学习开发者的可视化与调试需求_

【导语】2019 年 1 月，Uber 推出了 Manifold，一款与模型无关的机器学习可视化调试工具，可以用来识别 ML 模型中存在的问题。为了让其他 ML 实践者也能从这个工具中获益，近日，Uber 宣布将 Manifold 作为一个开源项目发布。今天，AI科技大本营（ID：rgznai100）就为各位开发者朋友们介绍这一开源工具的新情况。

Manifold简介

Manifold 可帮助工程师和科学家通过 ML 数据片和模型可视化来识别模型性能问题，并通过分析数据子集间的特征分布差异来诊断其根本原因。在 Uber 内部，Manifold 已经成为机器学习平台 Michelangelo 的组成部分，并且已经帮助 Uber 的各个产品团队分析和调试 ML 模型的性能。

此前，Uber 官方博客上重点介绍这个项目后，Uber 不断从社区中收到了许多关于 Manifold 在通用 ML 模型调试场景中潜在能力的反馈，因此在开源 Manifold 的独立版本中，相信它也能通过为 ML 工作流提供可解释性和可调试性这一特性使 ML 社区受益。

开源后第一版中的新特性

在 Manifold 的第一个开源版本中，Uber 官方为其添加了多个新特性，使模型调试比内部迭代更加容易。

版本 1 中的特性有：

1、支持通用的二分类和回归模型调试。用户可以通过分析和对比使用各种不同算法的模型，来辨别不同数据切片带来的性能差异。

2、可视化支持表格特征输入，包括数值，分类，以及地理空间类型特征。利用每个数据切片的特征值分布信息，用户可以更好地了解某些性能问题的潜在原因，例如模型模型的预测损失是否与数据点的地理位置和分布存在相关性。

图1、Manifold新功能，支持对地理空间特征的可视化

3、集成在Jupyter Notebook中。通过集成在 Notebook 中，Manifold 可以接收 Pandas Dataframe 对象作为数据输入，并在 Notebook 内部进行数据可视化。Jupyter Notebook 是数据科学家和 ML 工程师使用最广泛的数据科学平台之一，因此这种集成可以让用户在不影响正常工作流程的情况下用 Manifold 分析他们的模型。