O'Reilly首席数据科学家Ben Lorica在去年12月新加坡Strata数据会议上发表的演讲中提出:我们需要构建机器学习工具以此来增强机器学习工程师的能力。
Lorica讲述了在IT部门中会出现一个新职位:“机器学习工程师”,其工作是使机器学习模型适应生产环境。这些工程师会冒着将算法偏差嵌入系统中的风险,以此来降低系统为人类服务产生的劣质解决方案。
Lorica还提出了一系列的技术和程序步骤,以尽量减少这些风险,Lorica还将这些写入了相关的论文中去,对于任何在生产环境中实现机器学习系统的人来说,这是非常必要的阅读。
举个与错误有关的例子:如果人们一旦对某一项开发的错误率感到满意,那么是不是已经准备好将这一模型部署到生产中去了呢?假设有一个场景,有一个机器学习模型用于卫生保健:在建模过程中,千禧一代(皮尤研究中心定义为1981年至1997年间出生的美国人,在中国通常指1980年至2000年出生的人)的测试数据(红色)与来自老年人的被标记的例子数量(蓝色)相比是相当大的。由于准确性往往与测试集的大小相关,因此老年人的错误率将高于千禧一代。
对于这样的情况,一组研究人员引入了一个名为“机会均等”的概念,可以帮助减少不成比例的错误率,并确保两组的“真正正确率”是相似的。
本文首发网站:https://www.ait800.com/jiqixuexi/132.html
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有