Python爬取4000条猫眼评论,带你围观2021最烂院线电影
作者:互联网
之前对挺多典型影视作品做过数据解读,有好片也有烂片。
烂片能烂的让人记住的其实也不多,比如《富春山居图》、《上海堡垒》、《爵迹》之类。它们往往头顶着豆瓣2~3的评分,然后引发各种争议讨论,但其目标人群(明星粉丝)还是愿意掏腰包支持的。
大概一年前,我曾经写的【看韩国人如何评价韩国电影《寄生虫》?】一文中,就提到了一个观点。
这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。
毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。
只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。
3年后,《爱情公寓》大电影终于后继有人。一部打着开心麻花团队旗号的电影,玩起了诈骗式营销,喜获猫眼评分3.2。
在我的印象里,大部分电影在豆瓣可能6分左右,在猫眼上8分多。
那猫眼3.2分,究竟是什么概念呢?
这么说吧,毕志飞导演的神作——《逐梦演艺圈》即使在豆瓣上逼近2分!
但猫眼评分还有6.8分呢。
今天小五就带大家扒一扒这部2021最烂院线电影——《日不落酒店》。
爬虫大法好
这次爬虫目标选取了猫眼,原因有二:一是目前豆瓣只能获取500条评论,二是这次最大的争议竟然出现在猫眼评论区。
首先,我们来爬取猫眼电影上的评论数据,但网页版只能看到猫眼上的几条评论,所以我们要借助别人抓取的app接口来爬取,我发现小二之前做过类似的爬虫,就参考了一番。
接口格式如下:
http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=xxx
两个参数说明如下:[1]
- movieid:网站中每部影片的唯一 id
- startTime:当前页面中第一条评论的时间,每页共有 15 条评论
经过一番爬虫,成功获取了将近4000条猫眼电影评论。
不得不说,跟其他院线电影动辄几万、几十万条评论相比,《日不落酒店》显得寒碜多了。不得不服现在的观众们,避坑能力越来越强了。
毕竟当初《爱情公寓》当初还有个“情怀加成”。《日不落酒店》差评成这样还接着去看图啥呢?为了看沈腾的纸片人吗?
诈骗式营销
让我们看看观众们是怎么评价的?
先是看评分:远超一半的观众给出了一星的评价,但仍有10%的观众给出了高分的评价,标准烂片评分分布。
其中在猫眼上给出评分的男性观众比例远高于女性观众。
其实我们还获取了评论时间以及地域等数据信息,但其实意义不大,本文就不再展开讲述。
下面将利用python制作一个词云图,看看各位观众老爷们都表达了哪些看法?
# 绘制词云图
def gen_stylecloud(text, file_name):
stylecloud.gen_stylecloud(text=' '.join(text), max_words=300,
collocations=False,
font_path=r'C:\Windows\Fonts\msyh.ttc',
icon_name="fas fa-thumbs-down",
size=800,
output_name=f'{file_name}.png'
)
gen_stylecloud(text=text1, file_name='词云图')
Image(filename="词云图.png")
轻松制作词云图
扑面而来的就是各种差评字句,还有人用到了李诚儒老师的名言来形容自己的观后感:如坐针毡、如芒刺背、如鲠在喉。
词云图中提到最多的就是沈腾,这也是猫眼大规模差评的导火索。
小五这里截图一张《日不落酒店》的海报,你们看看这个人物比例,真·重新定义特别出演。
很多观众也在评论中透露,自己是因为有沈腾才去看的这部电影,谁能知道他在电影中只是一个人形立牌,也就是“纸片人”,并且只出现了不到3分钟。
被消耗的沈腾
细数开心麻花团队的电影作品,《夏洛特烦恼》上映于2015年,也是当年影院中最大的一匹黑马,让沈腾成为日后的“票房保障”。
之后连续推出了《羞羞的铁拳》《西虹市首富》,所获得的成绩也相当不错。接下来的《李茶的姑妈》成了开心麻花的“滑铁卢”,豆瓣只有4.7分。
而且它的主演与《日不落酒店》的一样,都是黄才伦。
不知道有没有影响,原本2019年春节档上映的《日不落酒店》,四次改档,直到今年的3.19日才上映。也许是自己极度不自信,才在宣传物料上各种“碰瓷”开心麻花和沈腾。
而后,《日不落酒店》的导演发了一篇长道歉信,澄清了几件事,其一,电影《日不落酒店》和开心麻花没关系;其二,沈腾就是客串,但出品方和宣传团队非要强行宣传“主演”;其三,我们这拍的不是喜剧片。
目前沈腾已成为中国影史票房第一的演员,累计票房突破200亿元。
现在他也经常被笑称为喜剧片的“票房保障”,网友甚至会说影片的“含腾量”如何如何。
但观众的信任感也是有限的,如果一而再、再而三地被拿来充当抢救票房的“烂片万金油”,声誉和路人缘也会总会被挥霍耗尽,失去其本应有的含金量。[2]
剧情好到哪里了吗
其实一开始制作的评论词云图中,还有一个关键词——“剧情”很突出!
那抛开被“纸片人”欺骗的感受,单论剧情有没有好一些呢。
重新使用python
筛选并截取涉及剧情的评论,具体方法如下所示
然后重新制作评论剧情相关的词云图。
大家把上图中的各种用词与“剧情”拼接起来,大概也就明白了单论剧情,仍然是一片骂声。
剧情无聊、剧情尴尬、剧情乱七八糟、剧情太烂、剧情垃圾、剧情难看、剧情无厘头等等,这就很离谱。
但客观的说,确实有好评中提到了剧情搞笑等正向词汇。
注:在计算中,关键词“不搞笑”和“搞笑”是区分开统计的,所以并非由于“不搞笑”的评论而导致“搞笑”词云占比大。
写在最后
上个月我说《唐探三》是电影票房榜上的烂片!更多是想说它的影片质量配不上它的票房。
但这次则是另一种烂,拼个散装剧本,然后找个开心麻花的演员当主演,最后搞个沈腾参演当噱头。
这种套壳营销方法,前有《爱情公寓》后有《日不落酒店》。
但最终观众们都用差评表达了自己的心声!
标签:最烂,沈腾,Python,电影,爬取,剧情,评论,日不落,猫眼 来源: https://blog.51cto.com/u_15127540/2697932