25年了,我总结出这些信息提取的经验教训

25年了,我总结出这些信息提取的经验教训
2020年01月18日 11:37 AI科技大本营

作者 | Ehud Reiter

译者 | 夕颜

出品 | AI科技大本营(ID:rgznai100)

【导读】近日,本文作者阿伯丁大学计算科学系教授 Ehud Reiter 及其带领的阅读小组读了一篇让他们印象深刻的论文——由 Ralph Grishman 发表的《信息提取 25 年》(25 Years of Information Extraction) 。在这篇论文中,格里什曼(比本文作者更长寿,1973 年获得博士学位)总结了 1994 年至 2019 年之间 NLP 子领域信息提取(IE)研究发生的改变,即从自然语言文本中提取结构化信息,并列出了他认为非常有趣的一些观点,他建议大家读一下这篇论文,肯定会受益匪浅。

重大但不惊人的进展

Grishman 在第 686 页提到:

经过 25 年的发展,其性能(F 分数)仅在标准事件分类基准上从 60 多分提高到 70年 多分。

换句话说,过去 25 年中 NLP 的所有一般性进展(机器学习、深度学习、语料库、计算能力的显著提高),加上 25 年以来许多非常聪明和敬业的研究人员对 IE 的专注研究,大大改善了 IE 的性能。但是,它们并没有因此我们在此期间在语音识别和机器翻译方面看到的“数量级”改进。

NLP 是一个广阔的领域,NLP 社区在过去 25 年中开发的一系列技术(包括深度学习 NLP)在NLP 的某些领域产生了巨大的影响,但在其他领域却没有这种影响。如果我们的目标是从整体上“破解” NLP,那我们需要继续探索新的想法,同时要摒弃最新的时髦想法(1994 年的流行语法,2019 年的深度学习)可以解决所有问题。

研究人员不喜欢复杂的评估

传统上,信息提取是根据精度、召回率和 F 值进行评估的。在第 685 页上,Grishman 描述了ACE 评估模型的命运,这是美国政府资助机构试图引入一种更实用的评估指标的尝试。但是除了向美国政府提交正式报告,研究人员一般拒绝使用 ACE。在学术论文中,他们坚持用召回、精度和 F 值。Grishman 猜测这是因为 ACE 很复杂,对研究人员来说不直观,也可能是因为“事件的原始值得分 低于 15%,在报告里使用这么低的分值让参与者感到尴尬”。

这使我想起了美国政府资助机构(如 DARPA)为了让研究人员使用更复杂、更现实的评估方法的尝试。他们试图让综述研究人员使用金字塔评估(https://www.aclweb.org/anthology/N04-1019/)。这是一种复杂的评估方法,需要人工注释测得摘要内容的质量(而不仅是表面形式)。我喜欢金字塔,但综述社区却不喜欢,我想是因为这种方法在 2019 年很少有人使用,而简单的ROUGE 指标仍然很强大。资助者试图让机器翻译研究人员评估机器翻译系统,以承担将机器翻译文本后期编辑为可接受的翻译所需的工作量(例如,基于任务的外部度量)。我认为 TER 和HTER 仍然有人在用,但是 BLEU 的使用多得多。

简而言之,即使是诸如 DARPA 之类的资助机构,也难以促使学术研究人员采用诸如 ACE、金字塔和 HTER 之类的评估技术,这些评估技术虽然非常复杂,通常需要人工,但得出的结果却可以更好地预测实际效用。在 NLP 中,人们偏向于简单、容易、便宜的评估方法,这些评估不需要人工注释,例如 BLEU、ROUGE 和 F 值,即使这些评估方法不如其他方法有意义。

语料库与规则

我观察到的另一个现象,是在没有语料库的情况下对使用规则与机器学习构建的系统进行比较,因此语料库构建必须包含在机器学习方法中。

Grishman 在第 683 页表示:

人工准备图案需要相当高的技巧和洞察力,但可能会产生相对干净的(高精度)系统。带注释的语料库的准备可能不需要那么多的技能,但需要更长的时间。

简而言之,编写规则会更快,并让导致系统更完善,但是它要求能够编写规则的高技能人才获得访问权限。为机器学习创建语料库需要更多的时间,并且会导致系统 bug 频出,但是我们可以用技术相对不那么熟练的人工来做到这件事。

NLG 是另一个语料库非常稀缺的领域。我通常认为在这样的环境下创建语料库是很愚蠢的,因为知道自己在做什么的人(像我一样)可以编写必要的规则,而不能为机器学习注释足够大的语料库。但是 Grishman 是正确的,在许多情况下,熟练的 NLP 劳动力是一种稀缺资源,但是不熟练的注释器很便宜,且可以通过 Mechanical Turk 或(如果需要更高质量的话)向低薪国家外包商业注释服务,从而大量使用。

本文还有许多其他有趣的见解和观察,我建议大家自己看一下!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部