云上机器学习的“引力”_

人工智能商业化进程逐步加快，以机器学习为代表的技术快速向各行各业渗透，而云上的机器学习服务正成为推动人工智能商业化落地的重要动力之一。在2020年的亚马逊re:Invent在线峰会上，AWS全球机器学习副总裁Swami Sivasubramanian全面展示了AWS关于机器学习的愿景。

自从2017年AWS上线了机器学习技术堆栈Amazon SageMaker后，在云上形成了强大的“引力”，吸引着越来越多的用户将机器学习工作负载迁移到云端。根据AWS的最新统计，已经有超过10万的客户在短短3年内使用了Amazon SageMaker，其中不乏美国运通、宝马和耐克等这样的行业领军者。

机器学习框架和算力的选择权

长久以来，框架的选择和计算能力都是机器学习的基础。AWS的机器学习服务在底层提供了由框架、计算资源、容器和数据集等构成的“底座”。提供丰富的框架和计算实例让用户根据应用的不同场景，自由选择。

“在AWS机器学习堆栈的底层，我们不断为用户优化深度学习的框架，GPU/CPU，以及我们自研的针对机器学习模型训练和推理的芯片”，Swami说。

开放、包容的框架选择策略，让AWS涵盖了几乎所有的框架。TensorFlow、PyTorch、MXNet、Chainer、Gluon、Horovod和Keras等机器学习框架和接口标准。不论是最知名的Tensorflow，还是后起之秀PyTorch，在AWS上都已经拥有了相当可观的使用规模，目前92%的基于Tensorflow框架的机器学习工作负载，91%的基于PyTorch框架的工作负载都跑在AWS云上。

同样在基础设施上，AWS也将选择权交给了用户，不仅提供基于英伟达、英特尔、AMD、赛灵思等芯片厂商的最新处理器能力，还提供自研的芯片，力争提供最优的性价比，让用户选择。

“每一项机器学习任务对计算能力和成本的需求和颗粒度都不一样，AWS就是要将计算能力的多样性和优化做到极致”，AWS大中华区云服务产品管理总经理顾凡强调。

比如，如果用户要追求性能极致，可以选择基于NVIDIA A100 GPU的P4d实例，它也是AWS首款网络带宽支持400Gbps的机器学习训练实例；如果用户追求最优性价比，可以选择基于AWS自研AWS Inferentia芯片的Inf1实例。

在今年的re:Invent大会上，AWS推出了全新的机器学习训练芯片AWS Trainium，与标准的AWS GPU实例相比，可带来30%的吞吐量提升，以及降低45%的单次引用成本。同时，Trainium支持与Inferentia相同的SDK。

总之，机器学习的框架和算力不断随着用户的应用场景和使用规模演进迭代，AWS始终围绕用户的需求优化性能和成本，将丰富的选项留待用户选择。

机器学习“全流程”的易用性

数据的训练，算法的优化，模型的训练，以及模型的部署、调优是机器学习的核心，Amazon SageMaker平台的每一次迭代都将易用性大幅升级，来消除数据工程师、算法工程师和开发者在机器学习模型构建和训练“全流程”周期中的繁重工作。

在今年的re:Invent大会上，AWS特别针对特征数据集提取、存储和访问进行了重笔墨的优化。

Amazon SageMaker Data Wrangler可大大简化用户的数据准备工作。相比数据标签，数据特征工程的难度更大，而且耗时。

Data Wrangler是一项数据特征的提取器，能将不同来源、格式多样的数据提取，形成规划化的数据字段。Data Wrangler的特别之处在于，可一键导入各种数据源中的数据，不仅全面支持AWS云上的数据仓库、对象存储等数据中的数据，还可对接市场上主流的第三方数据源，比如Snowflake、MongoDB和Databricks。

而且，Data Wrangler内置了300多个数据转换器，用户无需编写任何代码，就能将机器学习需要的特征进行规范化、转换和组合；同时可以在SageMaker Studio的IDE中查看，检查转换是否符合预期。

有效的解决了特征的提取后，用户将面临大量数据特征需要管理的挑战，比如将一组特征用于不同的模型，被多个开发人员和数据科学家使用，需要有效地跟踪、管理这些特征，及时更新，保持一致性；模型训练和利用模型进行推理（也就是实际运用模型），对特征的使用场景也不同。在训练过程中，模型可以离线、批量地访问特征，使用时间长。而对于推理，通常只用到特征库的一部分，不过需要实时访问，几毫秒内返回预测结果。因此，需要对特征库进行管理。

Amazon SageMaker Feature Store是用于更新、检索和共享机器学习特征的专用库。首先，可以解决特征的一致性问题，在训练和预测方面两边用的都是同一套特征；其次，能解决训练和预测中低延迟，以及大批量的加载更多特征数据的需要。

此外，AWS还发布了用于优化自动化工作流的Amazon SageMaker Pipelines，为机器学习构建的、方便易用的CI/CD（持续集成和持续交付）服务；用户优化模型偏差的Amazon SageMaker Clarify；用于大型复杂深度学习分布式训练的Amazon SageMaker Distributed Training等多项机器学习的中间层服务。

“Amazon SageMaker对机器学习的每个步骤的迭代越来越细，帮助客户找到探索机器学习的捷径，从而真正提升数据科学家和算法工程师的核心生产力和生产效率”，顾凡强调。

机器学习的民主化

AWS的机器学习技术堆栈，不仅能够满足拥有完整机器学习知识和技能团队的企业需求，还在机器学习的“民主化”方面不断扩展，毕竟不少的初创企业希望通过机器学习来提升数字化和智能化能力，往往这些企业拥有IT基础，比如有DBA、开发者、数据分析师等，但是缺乏熟悉机器学习的专业人员。

2020年11月21日，国家工业信息安全发展研究中心在《2020人工智能与制造业融合发展白皮书》中指出了目前融合存在的诸多难点，其中人才匮乏问题尤为严重。而人社部官网的报道中测算，目前我国人工智能人才的缺口超过500万，国内的供求比例为1:10，供需比例严重失衡。

针对企业缺少专业AI和机器学习人才的痛点，AWS最新上线了多项针对数据库、数据仓库、数据湖，以及商业智能（BI）方面的机器学习服务。

比如Amazon Redshift ML服务，数据分析师只管SQL查询，Redshift ML可以把数据导入Amazon S3，然后与SageMaker的Autopilot功能结合。Autopilot是一个自动建模的功能。之后，Redshift ML可以自动进行数据清洗、模型训练，选择最优的模型进行预测。

比如，Amazon QuickSight是AWS的一个商业智能（BI）服务，可以轻松地调用各种数据进行分析和展现。AWS于2020年5月推出了QuickSight ML新功能，它也跟SageMaker的Autopilot功能进行了结合，数据分析人员可以用它开展欺诈检测、销售预测等工作。在今年的re:Invent大会上，AWS推出了更酷的机器学习新功能QuickSight Q。通过它，可以用自然语言对数据进行提问，获得想要的数据洞察。例如，直接在查询框中输入“我们的同比增长率是多少？”几秒钟之内就可以得到高度准确的答案。如果按以往的方式，需要在模型中预先定义增长率、更新模型、处理数据，可能需要几天甚至几周时间。

“AWS希望更多的用户能够更加容易的参与机器学习，你只要有创新的主意，不需要懂机器学习，也能够通过机器学习给业务带来价值”，顾凡说。

机器学习的端到端能力

机器学习落地到应用场景中，很重要的一点是能够具备端到端的能力，帮客户解决实际的业务问题。

所以，为了将机器学习更好的落地的工业领域，AWS首次推出了开箱即用的5个工业领域机器学习解决方案。有硬件外设也有与客户解决方案融合的服务。

Amazon Monitron面向没有建立传感器网络的客户，提供由传感器、硬件网关和机器学习服务组成的端到端机器监控系统，来检测异常并预测何时需要维护工业设备；Amazon Lookout for Equipment是面向已经拥有传感器、但不希望自己构建机器学习模型的客户，由AWS为其构建模型并返回预测结果，检测异常设备行为。

AWS Panorama一体机是一个硬件设备，将它连接到工业场所的网络中，它就可以自动识别摄像头数据流，与工业摄像头进行交互。同时，AWS Panorama软件开发套件（SDK），方便工业相机制造商在新相机中嵌入计算机视觉功能。

Amazon Lookout for Vision为工业客户提供高精度、低成本的产品质量异常检测解决方案。它通过机器学习技术，每小时可以处理数千张图像，发现产品缺陷和异常。客户可以将摄像头图像批量或实时发送到Amazon Lookout for Vision，找出异常，例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。

目前已经使用AWS工业领域机器学习服务的客户和合作伙伴包括Axis、凌华科技、BP、德勤、Fender芬达、GE医疗和西门子交通等等。

结语

作为目前云端最广泛最具深度的一站式机器学习堆栈，用户对Amazon SageMaker的采用很大程度上都与AWS为机器学习提供的自由选择权，易用性、民主化和端到端能力密不可分。相信，未来将有越来越多的现代化企业应用和行业场景注入云端的机器学习服务来提升效率，降低成本，将数据转化为洞见和生产力。