首页 > 编程语言> > 《利用Python进行数据分析》 14.2 MovieLens 1M数据集

《利用Python进行数据分析》 14.2 MovieLens 1M数据集

2019-02-18 22:03:46 作者：互联网

第十四章数据分析示例

注：本章示例数据集可在附带的GitHub仓库（http://github.com/wesm/pydata-book）中找到

14.2 MovieLens 1M数据集

GroupLens实验室（http://www.grouplens.org/node/73）提供了一些从MovieLens用户那里收集的20世纪90年代末和21世纪初的电影评分数据的集合。这些数据提供了电影的评分、电影的元数据（流派和年份）以及观众数据（年龄、邮编、性别、职业）。这些数据通常会用于基于机器学习算法的推荐系统开发，虽然我们不会在本书中详细探讨机器学习技术，但我会向你展示如何将这些数据集切片并切成你需要的确切形式。

MovieLens 1M数据集包含6,000个用户对4,000部电影的100万个评分。数据分布在三个表格中：评分，用户信息和电影信息。

1.从ZIP文件中提取数据后，我们可以使用pandas.read_table将每个表加载到一个pandas DataFrame对象中。（见图14-1）

图14-1：使用pandas.read_table加载

2.通过使用Python的切片语法来查看每个DataFrame的前几行来验证一切是否成功（见图14-2、14-3）

图14-2：使用切片查验

图14-3：查验

注：年龄和职业被编码为整数，这些表示了数据集的README文件所描述的分组。

3.合并数据集

跨越三个表格分析数据并不是一件简单的事情，例如，假设你想按性别和年龄计算某个电影的平均评分。正如你将看到的，将所有表格合并到单个表中会更容易。使用pandas的合并功能，我们首先将ratings表与users表合并，然后将该结果与movies表数据合并。pandas根据重叠名称推断哪些列用作合并的（或连接）键位（见图14-4）