数据科学家必读！5篇情感分析研究论文_

图源：unsplash

情感分析用途广泛，能够识别感情与想法的AI模型广泛应用于诸多产业。因此，创造出可智能识别感情的机器日益成为热门。自然语言处理（NLP）的研究也是如此。本文将介绍5篇关于情感分析和情感分类的重要论文。

运用深度学习检测推特上的仇恨言论（Deep Learning for Hate Speech Detection inTweets）

情感分类模型的最重要用途之一是检测仇恨言论。最近有很多关于内容审核人员工作之艰辛的报道，随着自动仇恨言论检测和其他内容审核模型的发展，审查人员有望卸下审核图像内容的重担。

在这篇论文中，研究小组将他们的仇恨言论检测任务定义为对特定的推特帖子进行分类，区分其是否存在种族主义或性别歧视。

为此，研究人员基于包含16000条推文的数据集进行实验。在该数据集中，1972条推文标记为具有种族歧视内容。3383条推文标记为具有性别歧视内容。其余的推文归类为既没有种族主义情感，也没有性别歧视情感。

研究表明，某些深度学习技术能够比现有的N-gram方法更高效地检测仇恨言论。

发布/最近更新日期：2017年6月1日

作者和贡献者：Pinkesh Badjatiya（国际信息技术研究所-海得拉巴，以下简称IIIT-H）、ShashankGupta（IIIT-H）、Manish Gupta（微软）、Vasudeva Varma（IIIT-H）

2.depechemod++：双语情感词典（DepecheMood++: a Bilingual Emotion Lexicon）

创建词典的主要途径有两种：直接创建（通常使用众包注释器），或者从现有注释语料库派生。

研究人员的实验目的是：检验文档过滤、降低频率或文本预处理等简单的技术能否用于改善DepecheMood这一最新词典。这本词典由带注释的新闻文章组成，最初由Staiano和Guerini于2014年创建，用于情感分析。

在这篇论文中，研究人员解释了他们是如何创建该词典的。这项研究发布的新版本DepecheMood++有英语和意大利语两种版本。

发布/最近更新日期：2018年10月8日

作者和贡献者：Oscar Araque（马德里理工大学）、Lorenzo Gatti（特温特大学）、Marco Guerini（布鲁诺·凯斯勒研究所）、JacopoStaiano（Recital AI）

图源：unsplash

3.粗鄙之语：粗俗言论的社会动力（Expressively Vulgar: The Socio-dynamics ofVulgarity）

大多数思想的表达形式随时间不断演变，而粗俗的语言却并非如此，使用粗俗的语言往往包含表达确切信息的强烈指向。

在这项研究中，德克萨斯大学和宾夕法尼亚大学的研究人员对推特帖子中的粗俗词汇进行了大规模的数据驱动分析。更具体地说，他们的研究分析了推特中粗俗语言的社会文化和语用方面的内容。

研究小组试图回答以下问题：粗俗言论的表达方式和功能是否因该言论发表者的人口特征而不同？粗俗言论是否会影响对情感的感知？对粗俗言论进行建模是否有助于情感预测？

研究人员收集了6800条推文的数据集。接下来，他们让9位评审员用5分制对这些推文进行了情感标注。值得注意的是，数据还包括发布推文者的人口统计数据（性别、年龄、教育程度、收入、宗教背景和政治意识形态）。

这个数据集是唯一一个既包括推文又包括其发布者详细信息的开放数据集。此外，这也是第一次对低俗词建模如何提高情感分析性能的研究之一。

发布/最近更新日期：2018年8月

作者和贡献者：Isabela Cachola，Eric Holgate，Junyi Jessy Li（均来自德克萨斯大学奥斯汀分校）Daniel Preotiuc Pietro（宾夕法尼亚大学）

4.多语言推特情感分类：人类注释者的作用（Multilingual Twitter SentimentClassification: The Role of Human Annotators）

在本文所列举的关于情感分析的研究中，这是唯一一个强调人类注释者重要性的研究。在这项自动推文情感分类实验中，来自Jožef Stefan研究所的研究人员分析了一个用多语言推文标注情感的大型数据集。

具体来说，研究小组标注了160万条包含13种不同语言的推文。利用这些注释的推文作为训练数据，团队构建了多个自动情感分类模型。

他们的实验得出了一些有趣的结论。首先，研究人员指出，在统计学上，顶级分类模型的性能没有显著差异。其次，当应用于有序三类情感分类问题时，分类模型的基本准确性与性能无关。最后，研究人员表示应该关注训练集的精确度，而非所使用的训练模型。

发布/最近更新日期：2016年5月5日

作者和贡献者：Igor Mozeti，Miha Grčar和Jasmina Smailovičč（均来自Jožef Stefan研究所知识技术部）

5.MELD：一种用于情感识别的多模式多方数据集

图源：unsplash

在这篇论文中，作者就目前会话情感识别领域日益增多的研究进行了解释。同时，他们指出，该领域缺乏大规模的会话情感数据库。为了弥补这一点，研究人员提出了多模式情感线数据集（MELD），它是对原始情感线（EmotionLines）数据集的扩充和增强。

MELD包括了来自电视剧《老友记》的1433段对话中的13000段语音。数据集主要集中于两个以上说话者的对话。此外，每一句话都有情感和情感标签。而EmotionLines这一原始数据集则只包含对话的文本。因此，它只能用于文本分析。数据集的主要改进是增加了音频和视频模式。MELD包括所说的词、说话的语调和说话人的面部表情。

发布/最近更新日期：2019年7月4日

作者和贡献者：Soujanya Poria（新加坡科技设计大学）、Devamanyu Hazarika（新加坡国立大学）、NavonilMajumder（墨西哥国立理工学院）、Gautam Naik（南洋理工大学）、Erik Cambria（南洋理工大学）、Rada Mihalcea（密歇根大学）

创造情感智能机器是一个雄心勃勃的目标。为此，情感分析和情感识别是必要的步骤。希望这些论文有助于加强你对该领域目前所做工作的理解。