其他分享
首页 > 其他分享> > 虚假评论数据集(有标注)

虚假评论数据集(有标注)

作者:互联网

一、背景简介

  针对自然语言处理任务,现有一些大型的评论数据集,如yelp,amazon等数据集。人们可以根据自己的任务需求进行自行标注,从而产生了许多衍生数据集,甚至于一些框架自带一些NLP任务的数据集。然而这些衍生出的数据集多用来进行情感分析、评分预测等任务,而对于虚假评论识别任务来说,并没有便捷的方式获得数据集,而个人自行标注的成本过大,不便于实行,且个人自行标注的数据集准确度有待商榷。因此经过长时间的搜索,在网络上找到该带标注的数据集,其是Shebuti Rayana于2015年论文中创建使用的。Kaggle社区的mango与论文作者联系并获取了数据集,然后分享给了我,现在我把给数据集分享出来,以供大家学习使用。

二、数据集介绍

  该数据集有三个子数据集:YelpZip, YelpNYC and YelpChi

  其中各表头如下

metadata: user_id , product_id, rating(1-5), label(-1 = fake, 1 = clean), date productIdMapping: product_name, product_id    (产品名的映射关系) reviewContent: user_id, prod_id, date, review_text reviewGraph: user_id, product_id, rating   (Shebuti Rayana论文研究方法使用的) userIdMapping: user_code, user_id  (in this table, each user was just given a unique User ID)     一般的虚假评论识别任务使用metadata和reviewContent这两个文件即可。   可以将文件用excal打开并另存为csv文件使用。   三、注意事项⭐      根据Shebuti Rayana本人的要求,若你打算在任何项目中使用该数据集,都必须引用论文,格式如下:      Collective Opinion Spam Detection: Bridging Review Networks and Metadata. Shebuti Rayana, Leman Akoglu, ACM SIGKDD, Sydney, Australia, August 10-13, 2015       请大家规范使用  

四、数据集下载  

     点击这里下载Yelp评论数据集(带标注)

  (谷歌云盘,需要先自行解决上网问题)

五、其它

  如果大家有其他数据集,还请不吝分享在评论区,感谢。

  最后感谢Shebuti Rayana与mango的分享。

标签:虚假,Shebuti,评论,user,Rayana,数据,id,标注
来源: https://www.cnblogs.com/vex-lin/p/14641314.html