其他分享
首页 > 其他分享> > 【干货+视频】黄永峰:网络社交媒体的情感认知与计算

【干货+视频】黄永峰:网络社交媒体的情感认知与计算

作者:互联网

本讲座选自清华大学电子工程系信息认知与系统智能研究所副所长黄永峰于2015年12月23日在清华RONGv2.0系列论坛之 “社会关系网络与大数据技术”专场上所做的题为《网络社交媒体的情感认知与计算》的演讲。

图片
图片

黄永峰:各位老师、同学们,上午好!很荣幸有这个机会跟大家交流,我的题目是网络社交媒体的情感认知与计算。


图片

下面我将从这三个方面为大家逐一介绍。


图片


情感计算的历史是1997年由MIT的Picard教授提出的,她指出情感计算是与情感相关,来源于情感或能够对情感施加影响的计算。情感分为四类:情感识别、情感表示、情感建模、情感交互。今天我讲的更像是情感识别方面的研究。情感计算分为四个过程:情感信息采集、情感识别分析、情感理解认知、情感信息表达,这四个方面我们做得更多的是识别分析,理解认知是我们下一步想做的。



Picard提出这个计算的时候,最开始的想法是从一些图像的表情、语音的语调、姿态中采集数据,通过特征信息的抽取和分析,最后识别情感而今天我所做的情感是利用互联网这样一个平台来采集大量语言的信息或者语言数据来分析个体的情感。我们为什么要采集情感?首先情感的采集比别的更丰富,语言是人类思维的直接现实,是思想的传播载体,也是情感表达的媒介,通过采集语言数据分析情感是完全可能的。但是有没有难度?有个统计数据指出一个语言的情感信息10%来自于语言本身的内容,20%来自于语言的语调、语气,70%来自于表情。传统语言的语调、语气信号用于分析情感相对更容易,而我们基于语言内容来分析情感难度会大很多。




什么叫情感?首先要对情感的模型有一个理解。Plutchik提出了一个最典型的情绪模型,他把人的情感分为八个类别、四个种类,分别用锥形模型和展开后的模型描述。从这两个模型我们能够看出情感的描述有很多方法,目前用得最普遍的是三维模型,把情感用强度划分为三个等级,这八个类别相对的是不同极性情感,相邻的情感区域的情感是很相似的,即情感的第3维,相似性。我们后面展开的情感研究主要是对这24类情感研究的一个简单的量化,情感很复杂,我们的研究从两个方面进行量化,第一个是强度,第二个是把相似性和极性合到一起研究。




以往我们网络媒体情感的研究主要是对网络媒体情感的倾向性进行计算,基本方法是利用自然语言处理、文本分析、计算语言学的方法,从文本中挖掘人们的观点、情感、评价、态度和情绪,也称之为观点挖掘。基本部署是通过一些知识库,再加上统计学的一些基本原理,构建系统,对网络的文本进行分类,能够得出它的极性以及极性的强度。




第二个问题是社交媒体。我们今天强调的是社交网络。我们理解的社交媒体是由Web2.0产生的长度比较短的文本都叫网络文本,我们的网络情感计算就是从这些网络媒体中生产的数据来挖掘情绪强度,我们的网络媒体是一个典型的大数据。




首先数据量大,腾讯每日同时在线QQ用户是1.6亿,每天的存储容量是300G。新浪每天访问量是10亿,高峰期每秒要有100万的响应。





第二数据更新快,新浪微博每秒发帖量2500条以上,Twitter每秒发帖量在14300条,这些都有动态特征和时间演化特征。





第三多样性,这个和大数据的多样性的理解不太一样,我们认为的多样性是网络媒体的数字来自于不同的用户,不同用户的诚信度不一样,可信度也不一样。表达语言有多样性,表达方式有表情符号、中文、英文等。还有一个很大的特点,网络是非正式语言,有很多网络新词,而网络新词代表语义,而且拼写错误很多,这也是造成多样性的一个方面。





四,不确定性,做过语言的人都知道,语言最大的难度是语义,我们分析的时候主要是词的情感有不确定性以及噪声也有不确定性。比如说工资上涨及物价上涨,同样是上涨的词,工资上涨很高兴,物价上涨肯定是不高兴的。同时对一个句子来说,比如说国足太差了,后面另外一个网络用户说我同意,单从我同意这三个字很难理解他的网络极性,联合上下文理解,这是作为句子的不确定性。





为什么要对网络媒体内容的情感进行分析?从这个PPT中可以看出,现在不管是社交网络还是即时通讯的短文本,都包含了大量的情感信息。这些情感信息反映了对某个事件、某个公众人物、某个产品、某个企业的态度,通过对这些文本情感极性的分析,我们能够了解这个商店是好还是坏。



网络媒体情感计算的应用,这里就不详细介绍了。




这是几个典型的应用案例。




我们对网络媒体情感计算的学术意义做了分析。该领域从2006年开始成为研究热点,根据论文发表数目和被引用数目,其热度还处于线性上升的阶段。





微软发表文章指出情感计算是人工智能的重要发展方向。前不久有一个数据问答机器,下一步的目标是研究具有表情、情绪的机器人实现在舞台上的表演。如果说智能回答是人工智能的进步,有情感将是人工智能更高的境界。在2009年发表的社会计算学的文章中指出情感计算是社会计算的一个重要研究方向,在认知物理学的报告里指出认知物理学发展到较高层面也是情感计算。





我们实验室在网络媒体情感计算领域做了哪些事呢?首先我们分析了网络媒体在情感计算方面存在的挑战,跟传统文本相比网络媒体存在四方面的特点,也带来了相应的挑战。


一,网络媒体中表示情感的符号更丰富,除了一些语义词、情感词之外还有一些符号,大家经常发微信同时发一些符号,是一个图文并茂的结构。


二,网络媒体一般来说都很小,在200字以内,所以存在很多词汇特征的稀疏性问题,但是情感信息很丰富。


三,网络是非正式的语言,以前写错别字或者语句不通,大家会感觉很不好。但是在网络上能够表达意思就可以了,根本不关心表达方式,这样的文本载体对我们分析情感带来很大的挑战。


四,网络新词很多,每天都会出现很多不同的新词,新词出现以后语义也发生了变化。





我们要解决的最关键问题是情感语义的不确定性,具体表现为两方面:情感词极性的歧义性、情感词强度的模糊性。在情感词极性的歧义性方面主要有两个问题,第一个是依赖文本语境信息,在不同的文本语境下极性不一样。第二个是依赖用户的语境信息。





在文本的语境信息里,情感词极性上下文依赖,像刚才说的性价比高和价格高,两个都是高,但是表现的情感极性是不一样的。然后是情感词极性的领域依赖。第三个是用户个性化依赖,可能同样的事件,一个说不错,一个说良好,两个词都是表示正面情感,强度是否相同?第四个是跟上下文的社交依赖,我们说这个画面很漂亮和美得令人窒息,这两个都是表达情感的,他们使用不同的词,情感是否相同?


这是我们做情感计算要解决的关键问题,如何对情感的极性和强度的不确定性进行分析。目前采用的方法归类为三种,另外一种是统计和规则方法。




我们站在知识库的角度分为二个方面:一,情感词库和知识库构建一个分类器,现在有正向和负向词集,然后构建一个文本词集进而分析。二,利用网络这样的平台产生大量的文本语料,在文本语料的统计下,挖掘与正负向基准情感词的相似度。在基准正负情感词集之上构建情感语素集合,以这个词库为基础再建立情感模型。




我们前期完成一个项目是在国家863项目支持之下做的情感分析研究,我们当时的研究主要贯穿在以下四个方面:

第一个方面是对情感词的极性分类,在此基础上再分析极性词的强度。在这个项目里我们的研究亮点是对传统的情感词极性库加了不同的特征。




第二个方面是对文本语义的特征进行分类,情感词的极性对领域的依赖性很强,所以我们进行情感分类之前要获取语义特征,在此基础之上对文本进行分析。


第三个方面是在社交网络基础上通过社交网络语境来进行情感计算。


第四个方面是在网络文本极性分类基础上对峰值和强度进行预测。这四个方面中我重点介绍社交网络语境下的情感计算,我们计算的主题主要是社交网络媒体。


我们在社交网络语境下的情感计算,主要还是利用它的语境关联解决情感词的不确定性问题。具体的方法是对网络社交语境进行建模,确定社交的上下文关联以及话题关联,在这两个关联的基础上分别提出了社交上下文约束下的网络文本计算和特定话题下的网络文本计算。我们根据这方面的研究写了三篇代表性的论文:



一,社交上下文约束下的网络文本情感计算。这里面的内容是网络社交文本存在于丰富的社交上下文之中,但是这些文本的长度比较短,信息不完整。而且单个整句也可能产生歧义,所以我们必须结合上下文理解。



我们的研究思路是联合网络社交文本的情感得分再加上社交上下文的约束,来最终确定文本的极性。基本理论是这样的两个假设,第一个假设是情感一致性,用户在同一时间内对同一个话题的观点较为一致;第二个假设是情感传播,一个社交网络内的社区观点较为一致。基于这两个假设,我们构建了分类器。



这是我们的目标函数和约束条件。



上图是不同社交上下文的实验结果展示。




二,在特定社交话题下的网络短文本情感分析。情感的极性和话题具有极大的依赖性,我们在分析之前,首先要确定这个话题的主题。我们的做法是从海量无标注的数据中提取话题的特征知识,包括词的极性知识以及词与词相似性的知识,然后把这些知识融入到标注数据的模型中进行分类。


图片

我们使用数学模型对情感词的极性进行描述,两个词在社交文本中共现的概率越大,携带近似极性也可能越大。在这基础上我们建立了这个模型:情感词的极性知识、词与词情感关联知识,通过引进这样的知识项对模型进行优化。


图片

除了建立数学模型之外,在模型求解我们提出一个Fused lasso的算法,使得迭代计算速度更快。


图片

这是情感词的基本测试结果,我们在多个数据集上进行了实验,结果还是比较好的。

图片

图片



三,研究解决个性化的情感分类。前面主要是利用上下文和话题解决情感极性和不确定的问题,在一个社交网络环境下,每个人对评论都有个性化的特征,如何描述它的个性化特征?我们使用这个数学模型为每个用户分别训练一个个性化的情感分类器,通过这些分类器降低模型对标注数据的依赖程度,然后来分析文本的情感模式,图中是人性化依赖的情感极性分类模型。

图片

这是我们的三篇研究成果,结合我们在社交媒体的研究成果,我们开发了一个系统,网络大数据下的分享平台,其中有一个重要的功能,在线对网络文本进行情感分析。能够对五个新闻网站、四个社交网络的媒体数据进行实时采集和实时情感分析。



我们下一步要做的事情,我归纳为是认知情景下的网络社交媒体的情感计算。前面的情感计算主要是对文本内容的情感特征词、上下文的信息辅助分类模型进行分类,我们知道情感和心理活动是很有关联的,而且我们分析的手段目前还只是统计方法。这页PPT是IBM研究院孙博士的PPT,他把这数据分析分为四个阶段,描述性分析、预测性分析、指令性分析和认知性分析,我们对情感的分析是否可以引入这个认识性的分析?



认知性分析有三个特点:一,理解自然语言和人类沟通方式;二,基于数据认知和推理产生评估结果;三,产生自学习机制。



我们分析一下,根据心理学的基本原理,一个人的情绪分四个方面,首先与情景相关,在这个情景下心情好,换一个情景心情就不好了,所以有触景生情这一个说法;其次与需求相关,需求得到满足情绪就好,如果需求没有满足,情绪可能就是负向的;第三与人的认知有关,我们经常说仁者见仁、智者见智的;第四与行为有关,情感是行为的最终表达,行为的实施对情感产生影响,我们从小说要助人为乐,把做好事作为一件快乐的事情,这就是行为的影响。这些数据媒体带毛的、鲜活的、有情感的原生态数据,体现了认知过程中在语境、语构、语用和语义方面的不确定性,我们对这些数据进行挖掘,并利用这四要素对人的情感进行计算,能否比我们前面的计算更准确?

图片

出于这个基本考虑,我们提出了基于情感认知情景下的情感计算。这个题目去年获得了国家课题支撑。

图片


情感计算首先要研究情感认知,包括以下两方面,一个是从心理学的角度研究情感认知的内在机理,作为网络虚拟社会,网络用户跟平常的用户不一样,心理也不一样,网络媒体跟传统媒体不一样。那么特定的网络用户在网络虚拟社会环境下,对网络媒体这种新兴媒体的认知心理和传统的认知心理有什么不一样?这是我们研究的第一个问题。另一个是我们要利用网络大数据挖掘情感产生的外在原因,我们将这种外在原因称为社会因素,我们试图从人的心理与大数据的关联找出情感与情感的关系。中国人为什么都喜欢红色?原因是说不清楚的,但是我们可以通过大数据分析来给出答案。这个社会属性从心理机理方面无法得到答案,但是从大数据挖掘中可以找出社会关联。基于情感认知的心理机理和数据挖掘共同构建一个情感知识库,在情感知识库的基础上再来解决情感计算不确定性的问题。我们这个项目中的研究思路是在情感认知方面研究内在机理和外在诱因,分别带着社会属性和自然属性。然后构建情感知识库、情感词库,主要研究网络图文关联的极性计算,我们前期计算主要是基于文本内容计算,可以从刚才的文本分析中看出,很多网络媒体除了文字之外,还有一些标识符、情感符号和缩微的图形,这些也包含一些情感信息,我们是不是能够把这些关联起来进行研究?我们在情感计算里引入了基于模糊强度的理论。


图片

谢谢大家!


标签:极性,网络,黄永峰,情感,干货,计算,文本,社交
来源: https://blog.51cto.com/u_15127682/2826268