ACL最佳论文提出最新NLP模型测试方法，最佳论文提名也不可小觑_

译者 | 刘畅

出品 | AI科技大本营（ID:rgznai100）

导读：近日，ACL 2020公布了最佳论文奖，另有两篇最佳论文荣誉提名奖也各自提出了解决NLP领域问题的创新方法。

最佳论文：Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

论文链接：https://arxiv.org/abs/2005.04118

作者：来自微软、华盛顿大学、加州大学尔湾分校

尽管测量模型的准确性一直是评估模型泛化能力的主要方法，但它通常会高估NLP模型的性能。而评估模型的替代方法则着重于关注单个任务或特定行为。本文受软件工程中行为测试原理的启发，作者引入了一种与任务无关的测试NLP模型的方法--CheckList。CheckList包含有助于全面测试的通用语言功能和测试类型矩阵，以及用于快速生成大量不同测试案例的软件工具。本文通过测试三个任务说明了CheckList的实用性，鉴别出了商业模型和SOTA模型中的关键问题。例如，在用户研究中，负责商业化情绪分析模型的团队经过广泛的测试，发现了模型中新的可操作的错误。在另一项用户研究中，使用CheckList的NLP从业人员创建了两倍的测试用例，发现的错误几乎是没有使用它的三倍。

最佳论文荣誉提名：Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

论文链接：https://arxiv.org/abs/2006.06264

作者：墨尔本大学计算与信息系统学院

自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致不是一个简单的问题。本文表明，当前的指标评估方法对用于评估的翻译系统非常敏感，尤其是存在异常值时，这通常会导致对评价效果产生错误的自信判断。

最终，本文研究了成对系统排名方法，开发了一种在自动度量标准下以人为判断为阈值提高性能的方法，该方法可以量化所引起的I型错误与II型错误，即可以接受的人类评判质量差异，以及不能接受的人类评判差异。总之，这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

最佳论文荣誉提名：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

论文链接：https://arxiv.org/abs/2004.10964

作者：西雅图Allen人工智能研究所、华盛顿大学Allen计算机科学与工程学院