其他分享
首页 > 其他分享> > 文献阅读(二十):IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of Internet Memes

文献阅读(二十):IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of Internet Memes

作者:互联网

文献阅读(二十):IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of Internet Memes

问题Task介绍:

摘要

社交媒体上的信息包括各种形式,如文本、视觉和音频。NLP和计算机视觉社区常常孤立地利用一种突出的模式来研究社交媒体。然而,网络模因的计算处理需要一种混合的方法。Facebook、Instagram和Twitter等社交媒体平台上越来越普遍的互联网迷因进一步表明,我们不能再忽视这种多模式的内容了。据我们所知,对模因情感分析的关注并不多。这一提议的目的是引起学术界对网络模因自动处理的关注。情感分析这项任务将发布8K个带注释的模因——带有人类注释的标签,即情感,以及幽默类型,即讽刺、幽默或攻击性。

多模式社交媒体:

在过去的几年里,Facebook、Instagram和Twitter等社交媒体平台上越来越普遍的互联网memes译为:表情包,已经成为了一个非常有趣的话题。meme是近年来打字最多的英语单词之一(Sonnad, 2018)。memes通常来源于我们之前的社会和文化经历,比如电视剧或流行的卡通人物(一个不简单–一个现在非常流行的meme来自于电影《指环王》)。这些数字结构在我们的互联网文化中根深蒂固,为了理解一个社区的观点,我们需要了解它所分享的Memotion类型。(Gal等人,2016)恰当地将其描述为行为表现,这涉及一个有意识的决定,是支持还是拒绝一个正在进行的社会话语。网络仇恨Online Hate——一份残酷的工作:仇恨言论在网络社交媒体上的盛行对许多社交媒体公司来说是一场噩梦,也是一个巨大的社会责任。然而,最新加入的互联网memes(Williams等人,2016)使挑战加倍。当恶意用户上传一些冒犯他人的东西来折磨或打扰他人时,传统上必须至少有一个人看到并标记它,要么是用户,要么是雇佣工人。即使在今天,像Facebook和Twitter这样的公司仍大量依赖外部人力承包商,这些承包商来自CrowdFlower等初创公司或菲律宾的一些公司。但随着多模式社交媒体数量的增长,它变得不可能规模化。
检测在线社交媒体上的攻击性内容是一场持续的斗争。OffenseEval (Zampieri等人,2019)是SemEval在过去两年中组织的一项共享任务。但是,检测一个攻击性的Memotion比检测一个攻击性的文本要复杂得多——它涉及视觉暗示和语言理解。这是激励我们提出这项任务的因素之一。
Multimodal Social Media Analysis必要的是:Memotion与社交媒体上的文本内容类似,也需要通过分析和处理来提取所传达的信息。一些研究人员试图将Memotion生成自动化(Peirson等人,2018;Oliveira等人,2016)过程,而其他一些人试图提取其内在的情感(法语,2017)在最近的过去。然而,还需要做更多的工作来区分他们更好的方面,比如幽默或冒犯的类型。我们希望情感分析-这项任务将引起研究对该话题的关注,论坛将成为研究者继续讨论该话题的地方。

数据集:

在这里插入图片描述

情绪分析任务:

Task A- 情绪分类:给定一个网络Memotion,第一个任务是将它分为积极Memotion、消极Memotion和中性Memotion。
任务B-幽默分类:给定一个网络Memotion,系统必须识别所表达的幽默类型。这些类别包括讽刺Memotion、幽默Memotion、攻击性Memotion和动机Memotion。一个Memotion可以有多个类别。
任务C-语义类的尺度:第三个任务是量化某一特定效果被表达的程度。这些量化的详细情况见表1。将提供适当的注释数据。
在这里插入图片描述

正式论文讲解:

摘要

社交媒体上有大量的视觉和文字信息,它们或共同呈现,或孤立呈现。 Memes是最流行的形式,属于前一类。在本文中,我们提出了SemEval-2020 Task 8中提出的情感分析问题的方法。这项任务的目标是根据Memes的情感内容和情绪进行分类。我们利用自然语言处理(NLP)和计算机视觉(CV)技术对互联网Memes进行情感分类(子任务A)。
我们在研究中考虑了双模态(文本和图像)和单模态(纯文本)技术,从朴素贝叶斯Nave Bayes分类器到基于Transformer的方法。
我们的结果表明:一种纯文本的方法,一个简单的前馈神经网络(FFNN)嵌入Word2vec作为输入,性能优于所有其他方法。我们在情感分析任务中排名第一,相对于基线宏f1得分有63%的改进。我们的工作与任何有关结合不同模态的任务有关。

1 Introduction

An internet meme “网络迷因”是指通过互联网复制、转化和传播的一种思想或现象。Memes通常基于个人经历,是一种展示吸引力、怨恨、迷恋以及社会文化表达的方式。如今,网络迷因文化的流行程度处于一个高度。这创造了一个机会,从memes中获得有意义的见解,以理解社会公共阶层的观点。memes的内在情感具有政治、社会和心理相关性。memes的讽刺和幽默内容是用户许多认知方面的指标。社交媒体上充斥着针对社区、组织和政府的仇恨言论。对模因内容的分析有助于解决这类社会问题。
多模态数据的丰富和易获得性为自然语言处理和CV领域的研究开辟了许多途径。研究人员一直致力于根据人类的社交媒体活动,主要是他们在Facebook、Twitter等上分享的帖子,来分析人类的性格和行为特征(Golbeck et al., 2011)。在这方面,我们尝试解决SemEval-2020 Task 8:“情绪分析”(Sharma et al., 2020)下的情感分类问题。情感分析是对模因的情感内容进行分析。我们分离了模因的视觉和文本成分,并将这两种形式的信息结合起来进行基于情感的分类。很多文献对推文(Sailunaz和Alhajj, 2019)和其他纯文本任务(Devlin等,2018)进行了情感分类。多模式方法相对较新,但仍在探索中(Morency和Baltrusˇaitis, 2017;蔡、夏,2015;Kiela等人,2019年)。

我们首先在第2节中正式描述这个问题,然后简要回顾在这个领域中已经完成的工作。
在第3节中,我们描述了我们提出的方法。
第4节包含组织者提供的数据集的描述,以及与数据相关的挑战。它进一步深入研究了产生最佳结果的方法。
第5节总结了结果并进行了简单的误差分析。
最后,第六部分对全文进行了总结,并提出了未来的研究方向。我们系统的实现是在Github提供:https://github.com/vkeswani/IITK_Memotion_Analysis

2 Background

情感分析的子任务A是关于模因的情感分析。它涉及到对网络迷因的分类:积极的、消极的或中性的情绪。图1展示了这三个类的示例。
在这里插入图片描述
研究的主要部分致力于:文本和图像形式的分离处理
纯文本方法中,Transformer(Vaswani et al., 2017)是一种只使用注意机制的编码器-解码器架构,代替RNN。它在不同的自然语言处理任务中有广泛的应用。BERT (Devlin et al., 2018)是用于文本分类的最先进的变压器模型。它将双向性的概念引入注意机制,以便更好地利用语境信息。Reformer (Kitaev等人,2020)是最新的变压器,但更有效的内存和更快,因此工作较长序列。
对于基于图像的任务,ImageNet (Oquab et al., 2014)是一个带有手动标注图像的视觉数据集,用于视觉对象识别任务。ResNet-152(He et al., 2016)是一种使用Imagenet数据集训练的深度学习模型,用于对象分类。
图像和文本形式的联合处理最近得到了关注。Qian等人(2016)提出了一种将图像和文本特征线性结合的文本-图像情感分析模型。MMBT (Kiela等人,2019)或Multimodal Bitransformer通过将图像嵌入映射到文本空间,融合来自文本和图像编码器(BERT和ResNet)的信息。

3 Methods

简单的线性分类器到变压器,采用了各种各样的方法。我们大体上把这组技术分为bi-modal 双模态方法 and uni-modal单模态方法。

3.1 Bi-modal methods 双模态方法

这些方法同时考虑了文本和图像的分类方式。一般来说,这两种模式首先分别处理得到高级特征。然后使用一个额外的分类器将这些特征结合起来进行最终的预测。我们主要使用两种方法:

3.1.1 Text-only FFNN and Image-only CNN:

正如Qian et al.(2016)提出的,该方法使用FFNN进行文本分析(one-hot encoding进行矢量化),使用CNN进行图像分析(HSV值进行矢量化)。
对于这两种分析,我们都得到了类(正、负和中性)的概率分布作为输出。我们将上述两个模型的预测概率分布连接起来,并将它们作为特征提供给一个额外的分类器(在这种情况下,支持向量机SVM),以得到最终的预测。

3.1.2 Multimodal Bitransformer (MMBT):

MMBT (Kiela等人,2019)是单模态编码器融合方面的最新进展。他们以监督的方式单独接受预训练。它将ResNet-152和BERT结合起来,将图像嵌入映射到文本空间,然后是一个分类层。它是一个灵活的架构,即使缺少一个模态也能工作,并捕获文本主导地位。它还可以处理任意长度的输入和任意数量的模式。我们为我们的数据集微调了MMBT。

3.2 Uni-modal methods 单模态方法

我们实验了三种纯文本的meme分类方法。第4.1小节强调单独的纯文本分析是合理的。

3.2.1 Na ̈ıve Bayes

Näıve Bayes是一种流行的经典机器学习分类器(Rish等,2001)。模型背后的主要假设是给定类标签。所有的特性都是有条件地相互独立的,因此得名Näıve Bayes。它是高度可扩展的,也就是说,需要更少的训练时间。它在小的数据集上也能很好地工作,使它成为我们分析的一个很好的基线。我们使用了TextBlob library2提供的Näıve Bayes分类器的默认实现(Loria et al., 2014)。

3.2.2 Text-only FFNN

我们使用Word2vec嵌入(Mikolov等人,2013)来捕获单词的语义和句法属性。它是单词的高密度低维表示。我们使用预先训练好的嵌入。Word2Vec将每个单词表示为一个向量(在本例中为1x300)。标题由每个单词的平均单词嵌入表示。因此,FFNN的输入是一个n × 300矩阵,其中n是文字的数量。

3.2.3 BERT

来自Bidirectional Encoder Representations from Transformers(BERT) (Devlin等人,2018)是最先进的语言模型,已被发现对许多自然语言处理任务很有用。它具有很强的双向性(从标记的两边获取上下文信息),并通过自我监督学习学习文本的一种表示。在大型文本语料库上预先训练的BERT模型是可用的,这些模型可以针对特定的NLP任务进行微调。我们对BERT Base Uncased配置进行了微调,该配置有12层(变压器块)、12个注意头和1.1亿个参数。

4 Experimental Setup

在本节中,我们将定量描述组织者提供的数据集及其所面临的挑战
然后我们简要地提到预处理步骤。
最后,我们用Word2vec方法详细讨论了FFNN的结构和参数(第3.2.2节)。这种方法比其他所有方法都要好,所以最终得到了提交。

4.1 Data description 数据描述

作为任务的一部分,我们提供:7K human-annotated网络memes贴上各种语义维度(子任务A:积极的,消极的或中性的)。数据也包含:提取的标题/使用谷歌OCR系统提取出的文本,然后手动纠正了众包服务。因此,我们有两种形式,图像和文本
在这里插入图片描述
数据集(表1)带来了许多固有的挑战。

  1. 首先,感知到的情绪或情绪取决于感知者的社会或专业背景。因此,分类是高度主观的。
  2. 另外,模因中讽刺的存在也使得情感分类变得困难,因为讽刺的应用使积极的出现特征建立在消极的情感上。
  3. 标题长度的巨大差异是另一个问题。文本序列长度从1(甚至0)到100+不等。
  4. 此外,从浏览数据来看,所提供的模因中的文本优势是明显的,由于图像的受欢迎程度,相同的图像模板在不同的类别中重复,并且与情感类别的相关性很低。

因此,一种好的方法是将文本作为主要形式,而纯文本的方法效果很好。

4.2 Data preprocessing 数据预处理

文本预处理步骤包括:

  1. 删除标点符号、停止词和特殊字符,然后是小写字母、词元化和标记化。我们使用nltk library4 (Loper和Bird, 2002)
  2. 然后,使用Word2vec嵌入将标记转换为向量。
  3. 最后,取所有单词向量的平均值来创建标题嵌入(如第3.2.2节所述)。
    在这里插入图片描述

4.3 Model and parameters 模型和参数

我们详细阐述了基于Word2vec嵌入的纯文本FFNN方法的精确架构。我们采用前馈神经网络,有6个隐含层,softmax交叉熵,Adam优化器(Kingma和Ba, 2014)和ReLu激活函数。每个隐藏层中的节点数量如图2所示。每个隐含层的权值都用标准正态分布初始化。batch size=50,epoch=10。
由于权矩阵的随机初始化、优化中的随机性等原因,FFNN容易受到随机性的影响。因此,在使用相同的参数/超参数多次运行时,它会给出不同的结果。对于更大的数据集(不像我们的),该模型可能产生更稳定的结果。在下一节中,我们将展示测试集上的最佳得分(表3)以及50次运行验证集上得分的平均值和方差(表2)。
在这里插入图片描述

5 Results

情绪分析的官方评价指标是 Macro-F1
在这里插入图片描述
我们在表3中展示了子任务A的五种主要方法的Macro-F1得分。我们的最佳Macro-F1为0.3546581568,提高基线(0.2176489217)63%,在子任务A中排名第一。
大多数类别凌驾于其他类别之上呈现主导地位,在其他低于平均水平类别的表现上起了关键作用。对于“negative”类,没有足够的数据供系统进行训练。简单上,采样在一定程度上解决了这一问题。基于transformer的方法严重过拟合大多数类。meme模板的重复是双峰方法的另一个问题。讽刺在情感分类任务中也引入了歧义。在一些讽刺文本中,由于极性词的缺失,使得中性类相对占主导地位。

我们的结果可能是令人惊讶的,因为最先进的模型BERT和MMBT预计会做得更好。这种行为的一些潜在原因可能是数据点较少,讽刺,噪音和标题长度的大差异。此外,BERT已经在维基百科和书籍语料库上预训练。其中包含了定义良好的句子,但我们的数据集是嘈杂的,缺乏标点符号,由讽刺组成的。简单的方法效果更好,因为它们不涉及任何其他(大型)语料库的预训练。

6 Conclusion

我们试图执行一个复杂的任务来分类模因,受到了数据大小和质量的限制。虽然对数量多的类别来说,结果是合理的,但在对倾斜的类别重新抽样后,只能是平均水平。采用Word2vec嵌入的FFNN得到了最好的结果(表3)。
在这里插入图片描述
与transformers相比,基于Vanilla ANN的方法具有很强的竞争力,甚至优于它们。更好的研究问题是定义一些规则来获取模因数据,然后执行上述任务,从而利用领域知识来提高性能。
未来,我们可以设计一项研究,通过分析某个特定的社区(比如Facebook群)最喜欢或最讨厌哪个meme,来观察模因在不同社区中的传播情况。寻找meme的政治倾向也是一条可能的路径。表情包已经成为政党支持者、批评者和受影响的人们表达观点的一种越来越流行的方式。它们可以被视为一种宣传手段。这使得在政治背景下检测模因倾向的问题成为一个重要的研究工作。

标签:Task,Memotion,Bimodal,Sentiment,任务,情感,文本,方法,我们
来源: https://blog.csdn.net/qq_37486501/article/details/116570804