首页 > 其他分享> > 上百G文本数据集等你来认领|免费领取

上百G文本数据集等你来认领|免费领取

2021-01-03 22:53:36 作者：互联网

上百G文本数据集等你来认领|免费领取

玩机器学习的童鞋都知道数据集的重要性，没有数据粮食喂养，好的模型是长不出来的，形象的比喻就是“巧妇难为无米之炊”。

这一年多来一直在摸索文本分析领域，文科生一枚摸着石头过河，很可惜一直没有出什么东西。不过却也在这过程中积累了一些在线评论数据集。大多是在百度网盘、谷歌遇到我觉得有用的数据我一般会下载下来。大邓都整理到csv中，方便大家使用pandas进行数据分析。今天我整理了一下，分享给大家。

中文在线评论数据
中文的数据主要电商平台在线评论数据，且均标注正负情感标签的，领域包括：

通过这些标注的各个领域评论数据，我们可以训练各自领域的情感分析模型。有余力的童鞋也可以构建相关领域属性词典，想想就很激动。大邓这里打开其中一个文件，样子大概是这样的。

上百G文本数据集等你来认领|免费领取

此外还有微博评论数据，有人将其标注为4种情绪，数据量10万条。再次感谢他们的辛勤劳动。

亚马逊评论数据集
该数据集的发现要感谢山东烟台的一位网友，向我咨询问题的时候给我留下了加州大学圣地哥分校Julian McAuley教授的Amazon product ata数据集页面。

上百G文本数据集等你来认领|免费领取

数据集简介：

该数据集包含来自亚马逊的产品评论和元数据，其中包括1996年5月至2014年7月的1.4亿条评论。该数据集包括评论（评分，文字，乐于投票），产品数据（产品描述，类别信息，价格，品牌和图像特征）以及产品链接。

亚马逊1996-2014年近200G数据（这只是部分数据，更大更大的数据需要找Julian McAuley教授要）。这是教授的官方介绍，居然还有一个视频直播。大邓写这篇文章时美国大概是晚上十点，可能教授下班了，所以屋子里没有。如果赶巧的话，你们能看到教授搞学习。

标签：教授,上百,童鞋,认领,亚马逊,评论,集等,数据,标注
来源： https://blog.51cto.com/15069487/2581487