首页 > 其他分享> > 爬取猫眼电影

爬取猫眼电影

2020-09-27 07:32:21 作者：互联网

1.主题式网络爬虫名称

爬取猫眼电影top100的榜单信息
2.主题式网络爬虫爬取的内容与数据特征分析

①爬取内容：排名，电影名，主演，上映时间，影评分数，电影主页链接，封面图片链接

②数据特征分析：统计各地区电影数量（柱状图）各年份电影的评分分布情况（散点图）
3.主题式网络爬虫设计

get_one_page(url)函数：用requests库获取url页面原码

parse_one_page(html)函数：用BeauifulSoup库解析源码，并用find_all方法提取相关数据

write_to_csv(item)函数：将提取的数据保存成CSV文件，以便后续做数据分析

main(offset)：主函数，定义网址，用offset参数遍历网页页码，并调用get_one_page(url)函数获取源码，parse_one_page(html)解析源码提取数据，write_to_csv(item)写入文件保存数据。

技术难点：

网页爬取需要加入headers

将数据写入CSV文件时，因为数据是一页一页提取的，所以文件打开模式需要设置为‘a’

1.主题页面的结构特征

每页10部电影，页面中包括评分主演上映时间

2.Htmls页面解析，每部电影的数据都存放在一个<dd>的标签中

1.数据爬取与采集

保存的csv文件结果图：

2.对数据进行清洗和处理

数据清洗

3.数据分析与可视化
（例如：数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等）

数据可视化：

电影评分占比情况

各年影评分布

4.数据持久化

完整代码

4.结论

1.根据数据分析可得人们对于老电影经典电影更为热衷。

2.大部分经典电影来自美国和香港。

3.经典电影影评分高。

1此次爬取用到requests，BeautifulSoup,re几个库的基本使用，知道了有些网站需要添加请求头地址才能爬取。

更让我进一步感受到python的有趣及功能的强大。

标签：经典电影,电影,爬取,猫眼,数据,page,页面
来源： https://www.cnblogs.com/322ab/p/13737301.html