【干货】卫强:基于顾客在线评论分析的社会化商务
作者:互联网
本讲座选自清华大学经济管理学院管理科学与工程副教授卫强于2015年12月23日在清华RONGv2.0系列论坛之 “社会关系网络与大数据技术”专场上所做的题为《基于顾客在线评论分析的社会化商务》的演讲。
一般认为经管学院里大部分是做金融或者做会计的,其实我们这边还有一块是中国最早进行信息系统管理方面的研究,一开始 从工程角度做得比较多;也做系统开发、信息集成等,还有一些工作是从经济学视角和行为视角进行相关研究。但是作为管理学院的研究团队,我们的研究在商业或者经济中呈现什么样的价值?这是一个我们始终在考虑的问题。比如我们落脚点在网络广告上效果能不能提高,整体流程是否能够提高运作效率,这些是我们所考虑的重要问题。今天跟大家分享的是放到一个大背景下的一个研究热点,跟社交网络相关,很重要的内容,即在线评论分析。
从Web 1.0时代开始,每个用户都从网上下载东西来看。2011年起,互联网生成的一半以上内容叫UGC,就是“赞一个”诸如此类的内容。现在这些评论有很多,因此商家也在不断关注在线评论,希望能从中找到一些反映企业内在运作规律、能进一步优化运作或者了解客户需求的数据,因此这部分数据也开始纳入到企业管理的角度。所以说我们看大数据是逐渐生长出来的,最初没有大数据的时候就说把企业数据做好就行了,因此我们需要ERP,需要把金融、生产等全部打通。再往后,发现光搞好企业自身数据还不够,还得了解上下游的数据,包括供应链管理、协调,但这个数据不是全在我这儿,而是需要上下游开放接口,形成一种机制,使得大家都可以互相访问。
但是到目前为止,总的数据的结构是比较清晰的,后来CRM需要了解客户的反馈、投诉等各种意见,这种数据是客户生成的,结构化程度差。但是通过企业标准客服部门汇总过来后,纳入到企业里,这种信息相当于对企业所能管理的数据 做了进一步扩展,但是所以结构化还是比较高的。
再往后就不一样了,比如海尔每天通过互联网、京东、天猫、苏宁、国美等在线卖几千种不同的产品,所有的产品在网上卖,通过不同的代理商卖,每个网站上面都有评论,这些评论都是很重要的,是客户对他们产品态度的反应。但是这些数据都不在海尔的企业服务器上,而是在其他地方,甚至于在微信这种更加不开放的平台上,微信里目前我们还不能直接从外部抓到这些数据。但是这些数据现在也必须被这些企业管理人员所考虑,因为他们已经感受到这些数据对企业管理、运作以及销售方面的重要影响了。
传统的电子商务,狭义地看,基本上是每个客户单独地跟商家在线上进行一些分享,早期由于社交网络不是特别兴起,所以大家之间的共享不是特别频繁或者成规模。
现在不一样了,首先每个客户可能跟多个商家沟通,互相之间还有共享。这个时候我们看社会化商务基本特点,我们从网上找到一个比较公认的分类,将社会化商务分为7类基本活动,分别有买前和买后——而这些信息在原来没有社交活动前我们是不知道的,我们只知道你买了,花钱了,或者是搜索了,买了。有些平台APP提供实时的位置信息。比如当你走到大众点评某个商家门口,大众点评如果有促销,这个APP会很快推送到饭馆周边的十个人,如果这十个人同时买单,就打七折。不但考虑了社交网络的信息,还考虑了位置信息、推荐等。这是买之前的社会化商务活动。
买之后的分两类,第一类,我觉得好,我就分享出去。Facebook现在也特别想通过这种形式来做商业化,但是由于涉及隐私问题,所以没有敢特别开放地做。第二类,在线评论。原来从营销角度来讲,在线评论无非是消费者的口碑而已。传统营销消费者的口碑是,如果消费者反馈给厂家说今天卖出1000个东西,作为回访997个都是好评,有3个人说你不好。这在传统环境下这都不是一个事,对于企业决策人员来讲这都已经很好了,基本上百分之百的满意度。但是现在不一样,首先买东西要看评论,第二越是差评越有人看。因为现在大家不敢轻易给差评,担心会遭到卖家“追杀”或者各种恐吓。但是一旦有差评,不光是说这个月是不是该改善企业运营、产品回复服务了,而是这个差评直接影响下一个买家的购买意向。
所以这就使得整个社会化环境下商务活动的生命周期缩短地更快,这就给你能不能及时分析这些在线评论,改进商业,改进业务活动带来了很大的挑战。
我们在这块也做了一些工作,包括产品属性的分析、评论的情感分析等,这块的重点特别有意思,反映的是消费者视角。原来商家决定生产这个产品,是因为我们通过专家或者产品调研,最后形成专家意见,企业才开始上这个产品。这个也是通过消费者调查,但是间接的通过多重渠道的转换。现在在线渠道是直接反应消费者视角和意见的平台,开始越来越被重视了,因为你没有办法忽略。
我们对比一下,跟消费者视角相对的另外一个视角。我们称之为供应商视角。供应商视角指的是什么?
比如看这几个菜市场的广告牌子,荷兰豆,突出的特点是新鲜、特价、便宜。第二个是卖豆的,无筋,特嫩包糯,一烧就熟,特别好吃。下面这个是太湖菜,一烧就熟。这种商业模式自古就有,商家想要强调他的东西,他自己觉得怎么样是吸引客户的。
这样对不对?没有错,但是这是间接的,反应的是供应商认为的消费者感兴趣的东西,并不一定真的反应消费者感兴趣的东西。
原来我们在淘宝上搜卖豆浆机的商家,淘宝对自己的商品会有一些文本的描述,大概二三十个字。前几页是卖得不错的,大家强调的点是什么?首先是正品、全钢外壳、包邮等。通过我们对在线评论的分析发现,这些点仍然是,但是不是最主要的。通过用户评论数据分析发现,排在前面的消费者最关心的特征是,一易清洗,二低噪音。因为买回来之后,那些正品、全钢外壳等特征当然很重要,但是那些不是我在意的个性化特色。在我们当时做研究的环境中发现,没有商家会强调易清洗和低噪音这两个点,这一段就促成了我们下一个研究的视角。
最早我们想到的是如何通过在线评论的分析,提取出那些消费者感兴趣的特征,从而进一步优化产业的文本描述。我们想到一个平台是搜索引擎。
我们来看一个例子,明显看到目前的搜索引擎广告大部分体现供应商视角,由于经过供应商的长期处理,这些广告中所强调的关键词首先是过于碎片化,第二个是雷同。很多都会告诉你质优价廉、热销,这些都没有错,但是消费者这类广告看多了是有一个自动免疫功能的,就像你看电视广告,你看电视很开心,一到广告就自动屏蔽,看完之后问你什么广告,脑子根本就没有反应,这些都是一样的。
我们现在看到这些也是没有反应,因为不但关键词碎片化,而且内容没有打到消费者关注的点。为什么会这样?这些商家难道不都是本产品领域的专家么?他们怎么不认知不清楚消费者的关注的点呢?需要解释的是,不是说这些商家不认知,而是商家考虑的点跟最终消费者的点有一个延迟或者迁移。商家并不一定能那么迅速和有效地认知到消费者的关注点。当然在没有社会化商务之前,这已经是最有效的渠道了。但是有了社会化商务,有了大数据,那就给了我们一个更加有效地认知消费者偏好的渠道。
我们用大数据分析或者技术分析,分析的是什么?能不能用自动化的方式自动提取这些有价值的信息?比如说从在线评论网站上提升取关键词的分析,做完之后改进互联网广告。这个如果是自动化的过程可以提高效率。这个我们也没有完全做到自动化,因为这里面涉及到大量的数据处理等技术。原来我们做的工作是通过在线评论,比如说从京东抓一个产品进行分析,分析之后形成新的广告语放到类似于Google或者必应的搜索引擎广告上。
当时我们想做Google,但Google被封了,后来想做必应,却要花钱买,觉得不值当,后来我们做了一个实验室分析。我们做了七匹狼皮包,我们提取出在消费者评论里最重要的前五个属性,形成了这样一个长得很像Google或者必应广告的广告语,找钱包长款上阿里巴巴,下面的词叫阿里巴巴提供长款钱包,皮质柔软,手感不错,包装完美,质量好。其实这个广告没有什么特别,也挺庸俗的,但是跟别的比可能还好一点。因为这是用户关心的。我们把这个做了一个实验室的分析。有问两个问题:
1.我们提取的属性相对于现有的搜索引擎广告语的属性是否真的是消费者更加关心、感兴趣的。
2.通过这几个属性构造这个新的广告语,如果放到这搜索引擎平台上,让大家来点击,这个广告,更倾向于看哪个规模广告。
我们做了一个小规模的实验,从京东上随机搜了30个产品,招募了20名同学,通过对每一个产品进行分析,找到三个关键词。然后从必应上找三个关键词,一般从广告的第1页、第2页上汇总,做完了之后把6个属性随机打散放在一起。
就问对于这个描述来讲,你觉得哪三个词是更相关或者吸引更多注意力的。最后的结果看到,我们的结果明显好于必应上原来有的。这个原因也很简单,是因为必应原来的广告真的很差,我们比他好不是因为我们好,而是必应不知道出于什么考虑,强调的,不但比较离散,而且缺乏新意。
第二个实验,这个结果从统计上来讲不是特别好,在p=0.05的时候看着还不错,但是仔细看其实好得并不是很好多。
我们发现一个系列问题,第一个问题,比如说你的产品对一些搜索型产品,比如说电脑,电脑没什么广告,配置在那里放着,看就可以了。
第二是一个很大的问题,我们把从京东的在线评论中刷抓出来的关键词放到必应的平台上,发现这两个平台其实不是干一件事。在必应上看广告的人,一般不关心具体产品,一般都是搜品牌。而且现在必应上的很多广告,不管搜什么全转到阿里巴巴,这样广告的点不是突出产品的特征,只要突出阿里巴巴就可以。
这样将用我们方法得到的结果跟他们比就胜之不武,因为这两个场景不一样,这也是我们后续做这个小规模实验的原因,因为首先缺失真实的购物环境,第二是噪音很高,我相信都不是人做的,都是机器自动生成的。还有就是这两个平台的消费者不一样。京东的消费者写评论是购买后的消费者,但是在必应上搜索看广告的消费者,他的心态是你还没买,甚至离买东西还很远,比如说你买东西真要下工夫买了,做功课在搜索引擎上做,做完功课要买了肯定跑到一个专业的购物平台上。从全世界的产品开始作为初始集合,再考虑备选集,然后再选入适当的产品,等等,这两个场景离得很远,所以我们觉得这个实验平台的选择不太合适。
然后我们又转到另外一个平台,淘宝。淘宝有什么特点?一样东西千家卖。你买同样的东西,发现搜索排在靠前页面上的,比如说这是韩国的一款锅,你搜这款锅,就会发现图、价钱、店家星级都差不多,这个时候商家怎么才能区别出自己的不同?更有甚者现在淘宝还提供找同款的功能,你会发现什么都一样,图片、评论也一样,唯一不一样的就是这几行描述性的文字,这正好就是我们想要研究改进的点,我们想要改进的就是产品描述,怎么去更好地吸引他们消费者。
如果大家来搜“标题优化”,会发现有很多的讨论。这其实是一个在淘宝店家领域内非常重要的问题,淘宝无数卖家每天想着如何能把自己排到搜索页面的第一页,所以他就拼命想怎么把标题进行优化,因为图片、价钱基本上都一样。
但是标题有一个特点,你首先得保证能搜得到,你不能过于个性化,绝对的个性化永远搜不到,因为太个性化的词很可能消费者根本就想不到。为了使你的产品能够出现在消费者的搜索结果列表中,你要保证你的标题里包含一些“热词”。
达到被搜索到的目的后,就要考虑第二点,即你要承载着激发消费者点击的欲望,看了觉得还有点不一样,激发他们的购买欲望。像这种标题比较短,其实点开更短,一般是三行,这些字没有标点符号,全靠人的聪明才智断句,但是机器就很难。当时我的学生为了做这个,专门建立了一个关于女性大衣的词表,不这么干使用算法进行分词老分不对。这个事情在做完之后你发现很多词都有重复。有些词其实是表述的一个意思,但是为了保证产品能够被搜到,必须加这个热词。我们一直在考虑有没有可能把这个变成一个优化的问题,使得整体被搜到的概率或者说可能性不降低的情况下,还激发消费者增加点击率。
目前已经有一些关于标题优化的研究,要考虑的点包括: 第一个,你的关键词和产品匹配程度比较高,比如你卖阿迪达斯的鞋,你的关键词最好都是阿迪达斯或者鞋的这些关键词。第二个是标题要简洁明确,不要老是想抓所谓的热词。什么是热词?“微软”肯定是热词,但你是卖鞋的把“微软”放进来肯定没有用,所以这样考虑热词是没有意义的。第三个要吸引买家,吸引买家的重点在于你能不能提出一些更加亮点的词,比如你卖豆浆的,人家都是包邮、三包什么的,你可以加上易清洗,但是不要用“易清洗”把“豆浆机”给替换掉,那样搜不到。
从优化问题的角度来考虑,一个好的标题不仅要让搜索引擎满意,还要让消费者满意。首先是热词,这个搜索引擎流量不能减少。第二个提高消费者点击率。下面我们简单形式化表述一下,不是用特别严谨的形式。我原来有一个标题叫ABCDE,我能不能替换成ABCDF,假设FE是在热词的搜索量最低的,因为淘宝提供相应的搜索指数可以观测到搜索量的值。这里面我想把E替掉,用什么来替?首先跟所有在线上相关性的词可以找出来,找完之后发现提供热词的搜索量不能比E差,同时搜索频率、在线评论频率等计算出一个数,这个数要比E大。F一定要跟最基本的产品相关。我们通过这几个方面找出最大的F。
这是我们原来特别想做的,能够做出来自动化封装好的系统,或者是半自动化的系统。因为现在硕士毕业时间很紧张,还有一些大量的词表问题,就属于人工介入的半自动化了。通过在淘宝上抓这些东西,也是通过淘宝的搜索指数来获得关注程度和搜索趋势。
看一个实例,比如原来有一个“女装秋装2014大码上衣t恤女长袖韩版加绒加厚百搭蕾丝打底衫”。我们进行分词归类,长袖、百搭,加绒加厚、蕾丝等,然后发现“百搭”搜索量最少,发现在线上没有这个热词,就需要同义词的转换,转成“搭配“,”搭配“又要看一下这个的搜索量是不是特别高,特别高的话还要注意。
后来发现“搭配”也没有多高。下面开始从线上评价找,发现提到搭配的很多,但是一定要修身,在同义词修身和搭配有一个相似度的衡量,相对近一点,但是它是跟它相似度可以接受的里面最高的,有567次评论。
我们把修身拿过来,修身拿过来之后还要检查修身的搜索量是否在s中有,我们就可以放心了,s中的词说明搜索量足够高,可以拿来用。起码不会影响,或者不会显著的影响将来被搜索到的可能性。然后再看修身跟原来的这些词有没有很大的冲突,发现没有。最后就成了“女装秋装2014大码上衣t恤女长袖韩版加绒加厚修身蕾丝打底衫”。
我们做了一个实验让用户打分有什么好,用户粗看了之后说没有差别,但仔细看有差别。这个实验比较初步,但是能得到一些有意义的结论,我们发现测试者更加倾向于点击我们新改造的标题。但跟产品类型有关。
我们测了不同的产品,发现对所谓的手机数码、家电产品,即搜索产品,比如说我买一个ThinkPad,我就知道这些配置了,我根本不会看屏幕很亮,颜色很黑,因为是标准化的产品,一般我们要搜索这个产品就是了,则标题的影响并不显著。而对于另外一类产品叫体验产品,我今天买这件衣服差不多,但是这件衣服里面绣了一个小的蝴蝶结就特别喜欢,这个要体验,当更加敏感,对消费者心理的影响更加强的时候,我们就发现我们的方法在对女装、鞋这些起到了明显的效果。
这种情况下,对本身标准化的程度不高的产品, 例如买女鞋、女装的时候,在别的都相同的时候,用户就会看在标题上不一样的地方,而且标题的地方如果体现它的特点,他会更加感兴趣。这个结论非常有意义,而且整个方法的实践价值非常大,但现在还没有大规模地做起来,因为过程还没有完全自动化,人工的工作量比较大。
简单归纳一下,我今天介绍的是我们做的很多和社会化网络相关的一部分工作,但是这一块目前我们还没有特别多地考虑到网络结构问题。另外跟结构相关的研究问题是关于社会化网络结构的传播,包括与评价之间相关的,这个人你打多少分和那个人打多少分,跟你们两个之间的社会距离是有关的。
这个我们现在还没有做,是带来对我们研究的新的启发。传统电子商务研究,商家、消费者、市场的信息融合程度比较低,通过引入在线评论分析,可以有效提高信息的融合度,相当于把商家关心的事和消费者关心的事,以及平台上呈现的事件能更加紧密的联系在一起。
这里面有一个概念是SoloMo,你现在做的社会商务Social要有,Location必须要有,Mobile也必须要有。如果这三个都有了,就能够更加紧密的分析到消费者的社会关系、位置信息、动态演化点击序列的信息,这些信息的引入事实上在反应了消费者的360度和全时段的信息。这也是我们管理领域里会说到消费者的全景探知或者全景洞察。
我把消费者从头到尾的什么事都知道,就这个全给你推进产品、打广告、做产品推荐,这就是我们做到的目的。如果真的做得好,就形成这种环境下,你去超市买东西,一去那个位置,超市马上给你推送今天打折的产品。你到了之后可能通过手机支付,马上相关的产品会告诉你亲朋好友买了,你买不买?这样融合的一个SoLoMo场景,将来就会达到更加高程度的社会化商务的目的。
但是这里面讨论的时候,我们假设所有的评论都是有效的,而事实上网上有大量的水军和欺诈的信息,这会影响到前述方法的效果和作用。就需要结合采用更多的商务智能技术和方法进行数据预处理。
标签:搜索,消费者,干货,评论,社会化,产品,卫强,我们,在线 来源: https://blog.51cto.com/u_15127682/2826261