豆瓣电影的探索性分析实现
作者:互联网
1、数据描述
使用python软件对豆瓣电影数据集进行探索性分析
字段描述:
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url,可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;
2、问题描述
1、电影的什么对评分影响最大?
2、电影的评分、投票数和年份之间有什么关系?
3、数据清洗和预处理
3.1、导入相关数据和数据库
导入豆瓣电影数据集
import pandas as pd import dtale data=pd.read_csv(r'C:\Users\宋科\Desktop\python作业\movies.csv',encoding='utf-8') data
3.1、查找缺失值
查看数据的缺失值
# 查找缺失值 pd.isnull(data).sum()
运行结果:
发现指导教师具有缺失值,需对其进行去除缺失值
3.1.1、删除缺失值所在行
删除缺失值
# 删除缺失值所在的行 data.dropna(inplace=True) data.shape
运行结果:
3.2、去除重复值
删除数据的重复值
# 对数据进行去重 import numpy as np data=data.drop_duplicates() data
运行结果:
4、各变量相关性数据分析与可视化
下面我们借助tale工具,通过可视化的方法进一步了解获奖作品数据集
4.1、可视化
4.1.1、豆瓣评分的直方图
从图中可以看出,豆瓣电影数据主要聚集在6.1至8.9评分之间,可以明确看出评分的数量与评分之间的关系
4.1.2、豆瓣投票数的直方图
从图中可以看出,豆瓣电影的投票数大致数量区间在19656左右,可以明确看见投票数和数量之间的关系
4.1.3、豆瓣电影年份直方图
从图中可以明显的看出,在1997年至2017年电影的数量比较多,可以和清楚的看见年份与电影数量的关系
4.2、相关性分析
下面我们将使用散点图对DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性进行分析
4.2.1、DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)相关性
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)趋势先上升后又逐渐下降,可以看出大部分电影投票率最高处在9分作用。
4.2.2、DOUBAN_SCORE(豆瓣评分)和YEAR(年份)之间的相关性
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和YEAR(年份)趋势不断上升后又逐步下降,可以推测出可能是有一部分烂片充斥者电影市场,导致评分有些下滑趋势。
4.2.3、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性
从该散点图中可以看出,DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)趋势不断上升,说明用豆瓣的观众越来越多,后又评价较少,可能观众们在其他平台看电影,不满于只在豆瓣上看电影,可以看出豆瓣的竞争力越来越大。
4.3、图表
下面我们借助下面我们借助tale工具,对豆瓣电影进行进一步探索性分析
4.3.1、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的小提图
4.3.2、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的热图
4.3.3、词云图
4.3.4、折线图
5、主要结论
1、从DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)关系性图可以看出,大部分观众都趋向于到9分左右,说明电影还是能够达到大部分观众的肯定。
2、从DOUBAN_VOTES(豆瓣投票数)到YEAR(年份)关系性图可以看出,用豆瓣作为主要平台的人在变少,说明豆瓣拥有许多强大的竞争者。
3、观众大部分都在2000至2010年进行评分投票,可以看出电影在这个年份区间普及率较高
标签:DOUBAN,VOTES,探索性,电影,评分,豆瓣,投票数 来源: https://www.cnblogs.com/songke/p/14897695.html