首页 > 其他分享> > 虚假评论数据集（有标注）

虚假评论数据集（有标注）

2021-04-10 17:05:45 作者：互联网

一、背景简介

　　针对自然语言处理任务，现有一些大型的评论数据集，如yelp，amazon等数据集。人们可以根据自己的任务需求进行自行标注，从而产生了许多衍生数据集，甚至于一些框架自带一些NLP任务的数据集。然而这些衍生出的数据集多用来进行情感分析、评分预测等任务，而对于虚假评论识别任务来说，并没有便捷的方式获得数据集，而个人自行标注的成本过大，不便于实行，且个人自行标注的数据集准确度有待商榷。因此经过长时间的搜索，在网络上找到该带标注的数据集，其是Shebuti Rayana于2015年论文中创建使用的。Kaggle社区的mango与论文作者联系并获取了数据集，然后分享给了我，现在我把给数据集分享出来，以供大家学习使用。

二、数据集介绍

　　该数据集有三个子数据集：YelpZip, YelpNYC and YelpChi

　　其中各表头如下

metadata: user_id , product_id, rating(1-5), label(-1 = fake, 1 = clean), date productIdMapping: product_name, product_id (产品名的映射关系) reviewContent: user_id, prod_id, date, review_text reviewGraph: user_id, product_id, rating (Shebuti Rayana论文研究方法使用的) userIdMapping: user_code, user_id (in this table, each user was just given a unique User ID) 　　一般的虚假评论识别任务使用metadata和reviewContent这两个文件即可。　　可以将文件用excal打开并另存为csv文件使用。 三、注意事项⭐ 根据Shebuti Rayana本人的要求，若你打算在任何项目中使用该数据集，都必须引用论文，格式如下： Collective Opinion Spam Detection: Bridging Review Networks and Metadata. Shebuti Rayana, Leman Akoglu, ACM SIGKDD, Sydney, Australia, August 10-13, 2015 请大家规范使用

四、数据集下载

点击这里下载Yelp评论数据集(带标注)

（谷歌云盘，需要先自行解决上网问题）

五、其它

　　如果大家有其他数据集，还请不吝分享在评论区，感谢。

　　最后感谢Shebuti Rayana与mango的分享。

标签：虚假,Shebuti,评论,user,Rayana,数据,id,标注
来源： https://www.cnblogs.com/vex-lin/p/14641314.html