其他分享
首页 > 其他分享> > 爬取猫眼电影

爬取猫眼电影

作者:互联网

1.主题式网络爬虫名称

爬取猫眼电影top100的榜单信息
2.主题式网络爬虫爬取的内容与数据特征分析

①爬取内容:排名,电影名,主演,上映时间,影评分数,电影主页链接,封面图片链接

②数据特征分析:统计各地区电影数量(柱状图)各年份电影的评分分布情况(散点图)
3.主题式网络爬虫设计

get_one_page(url)函数:用requests库获取url页面原码

parse_one_page(html)函数:用BeauifulSoup库解析源码,并用find_all方法提取相关数据

write_to_csv(item)函数:将提取的数据保存成CSV文件,以便后续做数据分析

main(offset):主函数,定义网址,用offset参数遍历网页页码,并调用get_one_page(url)函数获取源码,parse_one_page(html)解析源码提取数据,write_to_csv(item)写入文件保存数据。

技术难点:

网页爬取需要加入headers

将数据写入CSV文件时,因为数据是一页一页提取的,所以文件打开模式需要设置为‘a’

1.主题页面的结构特征

每页10部电影,页面中包括评分主演上映时间

2.Htmls页面解析,每部电影的数据都存放在一个<dd>的标签中

1.数据爬取与采集

保存的csv文件结果图:

2.对数据进行清洗和处理

数据清洗

3.数据分析与可视化
(例如:数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等)

数据可视化:

电影评分占比情况

各年影评分布

4.数据持久化

完整代码

4.结论

1.根据数据分析可得人们对于老电影经典电影更为热衷。

2.大部分经典电影来自美国和香港。

3.经典电影影评分高。

1此次爬取用到requests,BeautifulSoup,re几个库的基本使用,知道了有些网站需要添加请求头地址才能爬取。

更让我进一步感受到python的有趣及功能的强大。

 

标签:经典电影,电影,爬取,猫眼,数据,page,页面
来源: https://www.cnblogs.com/322ab/p/13737301.html