Uber最新开源Manifold,助力机器学习开发者的可视化与调试需求

Uber最新开源Manifold,助力机器学习开发者的可视化与调试需求
2020年01月17日 18:42 AI科技大本营

【导语】2019 年 1 月,Uber 推出了 Manifold,一款与模型无关的机器学习可视化调试工具,可以用来识别 ML 模型中存在的问题。为了让其他 ML 实践者也能从这个工具中获益,近日,Uber 宣布将 Manifold 作为一个开源项目发布。今天,AI科技大本营(ID:rgznai100)就为各位开发者朋友们介绍这一开源工具的新情况。

Manifold简介

Manifold 可帮助工程师和科学家通过 ML 数据片和模型可视化来识别模型性能问题,并通过分析数据子集间的特征分布差异来诊断其根本原因。在 Uber 内部,Manifold 已经成为机器学习平台 Michelangelo 的组成部分,并且已经帮助 Uber 的各个产品团队分析和调试 ML 模型的性能。

此前,Uber 官方博客上重点介绍这个项目后,Uber 不断从社区中收到了许多关于 Manifold 在通用 ML 模型调试场景中潜在能力的反馈,因此在开源 Manifold 的独立版本中,相信它也能通过为 ML 工作流提供可解释性和可调试性这一特性使 ML 社区受益。

开源后第一版中的新特性

在 Manifold 的第一个开源版本中,Uber 官方为其添加了多个新特性,使模型调试比内部迭代更加容易。

版本 1 中的特性有:

1、支持通用的二分类和回归模型调试。用户可以通过分析和对比使用各种不同算法的模型,来辨别不同数据切片带来的性能差异。

2、可视化支持表格特征输入,包括数值,分类,以及地理空间类型特征。利用每个数据切片的特征值分布信息,用户可以更好地了解某些性能问题的潜在原因,例如模型模型的预测损失是否与数据点的地理位置和分布存在相关性。

图1、Manifold新功能,支持对地理空间特征的可视化

3、集成在Jupyter Notebook中。通过集成在 Notebook 中,Manifold 可以接收 Pandas Dataframe 对象作为数据输入,并在 Notebook 内部进行数据可视化。Jupyter Notebook 是数据科学家和 ML 工程师使用最广泛的数据科学平台之一,因此这种集成可以让用户在不影响正常工作流程的情况下用 Manifold 分析他们的模型。

图2、Manifold 集成在 Jupyter Notebook 中,接受 Pandas DataFrame 对象数据为输入,并在 Jupyter Notebook UI 中呈现可视化效果

4、基于单样本预测损失和其他特性值的交互式数据切片和性能比较。用户将能够根据预测损失、标签或其他感兴趣的特征值对数据进行切片和查询。此功能将使用户能够通过灵活的数据切片逻辑快速验证或否定他们的假设。

图3、基于单样本的预测损失和其他特征值的交互式数据切片,让用户能更好的理解ML模型的性能问题

开始使用Manifold

Manifold 的开源版本提供了一个 npm 包版本,对于 Jupyter Notebook 绑定,则提供一个Python 版本。要开始使用,请遵循 github repo 中的文档并在本地安装它,或者查看我们的演示网站。我们鼓励您对 Manifold 进行个人尝试,并期待收到您的反馈!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部