编程语言
首页 > 编程语言> > Python3 抓取豆瓣电影Top250

Python3 抓取豆瓣电影Top250

作者:互联网

利用 requests 抓取豆瓣电影 Top 250:

import re
import requests

def main(url):
    global num
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
    req = requests.get(url, headers=headers)
    pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)
    for name in re.findall(pattern, req.text):
        if name.startswith("&"):
            continue
        else:
            print("%s: %s" % (num, name))
            num += 1

if __name__ == '__main__':
    num = 1
    for i in range(0, 256, 25):
        url = "https://movie.douban.com/top250?start=%s&filter=" % i
        main(url)

执行结果:

1: 肖申克的救赎
2: 霸王别姬
3: 这个杀手不太冷
4: 阿甘正传
5: 美丽人生
6: 泰坦尼克号
7: 千与千寻
8: 辛德勒的名单
9: 盗梦空间
10: 忠犬八公的故事
11: 机器人总动员
12: 三傻大闹宝莱坞
13: 海上钢琴师
14: 放牛班的春天
15: 楚门的世界
16: 大话西游之大圣娶亲
17: 星际穿越
18: 龙猫
19: 教父
20: 熔炉
21: 无间道
22: 疯狂动物城
23: 当幸福来敲门
24: 怦然心动
25: 触不可及
26: 乱世佳人
27: 蝙蝠侠:黑暗骑士
28: 活着
29: 少年派的奇幻漂流
30: 天堂电影院
31: 控方证人
32: 鬼子来了
33: 十二怒汉
34: 指环王3:王者无敌
35: 天空之城
36: 飞屋环游记
37: 摔跤吧!爸爸
38: 大话西游之月光宝盒
39: 搏击俱乐部
40: 罗马假日
41: 哈尔的移动城堡
42: 闻香识女人
43: 窃听风暴
44: 辩护人
45: 两杆大烟枪
46: 飞越疯人院
47: 死亡诗社
48: 末代皇帝
49: 指环王2:双塔奇兵
50: V字仇杀队
51: 教父2
52: 素媛
53: 指环王1:魔戒再现
54: 海豚湾
55: 饮食男女
56: 美丽心灵
57: 狮子王
58: 情书
59: 寻梦环游记
60: 钢琴家
61: 美国往事
62: 本杰明·巴顿奇事
63: 小鞋子
64: 黑客帝国
65: 西西里的美丽传说
66: 看不见的客人
67: 让子弹飞
68: 拯救大兵瑞恩
69: 致命魔术
70: 大闹天宫
71: 七宗罪
72: 哈利·波特与魔法石
73: 被嫌弃的松子的一生
74: 音乐之声
75: 低俗小说
76: 天使爱美丽
77: 沉默的羔羊
78: 勇敢的心
79: 剪刀手爱德华
80: 蝴蝶效应
81: 猫鼠游戏
82: 春光乍泄
83: 心灵捕手
84: 布达佩斯大饭店
85: 禁闭岛
86: 入殓师
87: 穿条纹睡衣的男孩
88: 幽灵公主
89: 阿凡达
90: 阳光灿烂的日子
91: 第六感
92: 玛丽和马克思
93: 致命ID
94: 狩猎
95: 重庆森林
96: 断背山
97: 加勒比海盗
98: 摩登时代
99: 告白
100: 大鱼
101: 喜剧之王
102: 一一
103: 消失的爱人
104: 射雕英雄传之东成西就
105: 阳光姐妹淘
106: 甜蜜蜜
107: 爱在黎明破晓前
108: 小森林 夏秋篇
109: 侧耳倾听
110: 红辣椒
111: 倩女幽魂
112: 驯龙高手
113: 恐怖直播
114: 风之谷
115: 上帝之城
116: 请以你的名字呼唤我
117: 超脱
118: 爱在日落黄昏时
119: 菊次郎的夏天
120: 幸福终点站
121: 哈利·波特与死亡圣器(下)
122: 小森林 冬春篇
123: 杀人回忆
124: 神偷奶爸
125: 借东西的小人阿莉埃蒂
126: 7号房的礼物
127: 怪兽电力公司
128: 萤火之森
129: 唐伯虎点秋香
130: 岁月神偷
131: 超能陆战队
132: 蝙蝠侠:黑暗骑士崛起
133: 七武士
134: 电锯惊魂
135: 真爱至上
136: 谍影重重3
137: 疯狂原始人
138: 萤火虫之墓
139: 喜宴
140: 东邪西毒
141: 贫民窟的百万富翁
142: 英雄本色
143: 黑天鹅
144: 无人知晓
145: 记忆碎片
146: 心迷宫
147: 血战钢锯岭
148: 傲慢与偏见
149: 雨人
150: 时空恋旅人
151: 荒蛮故事
152: 纵横四海
153: 教父3
154: 卢旺达饭店
155: 玩具总动员3
156: 达拉斯买家俱乐部
157: 花样年华
158: 完美的世界
159: 海边的曼彻斯特
160: 海洋
161: 虎口脱险
162: 恋恋笔记本
163: 你看起来好像很好吃
164: 被解救的姜戈
165: 燃情岁月
166: 二十二
167: 头脑特工队
168: 冰川时代
169: 无敌破坏王
170: 雨中曲
171: 我是山姆
172: 你的名字。
173: 人工智能
174: 爆裂鼓手
175: 穿越时空的少女
176: 魂断蓝桥
177: 未麻的部屋
178: 猜火车
179: 三块广告牌
180: 模仿游戏
181: 一个叫欧维的男人决定去死
182: 房间
183: 罗生门
184: 忠犬八公物语
185: 完美陌生人
186: 恐怖游轮
187: 阿飞正传
188: 魔女宅急便
189: 香水
190: 朗读者
191: 浪潮
192: 哪吒闹海
193: 可可西里
194: 黑客帝国3:矩阵革命
195: 海街日记
196: 谍影重重
197: 战争之王
198: 谍影重重2
199: 牯岭街少年杀人事件
200: 地球上的星星
201: 一次别离
202: 追随
203: 青蛇
204: 惊魂记
205: 终结者2:审判日
206: 疯狂的石头
207: 撞车
208: 源代码
209: 再次出发之纽约遇见你
210: 小萝莉的猴神大叔
211: 步履不停
212: 新龙门客栈
213: 初恋这件小事
214: 梦之安魂曲
215: 爱在午夜降临前
216: 东京物语
217: 无耻混蛋
218: 城市之光
219: 天书奇谭
220: 绿里奇迹
221: 彗星来的那一夜
222: 这个男人来自地球
223: 海蒂和爷爷
224: E.T. 外星人
225: 末路狂花
226: 血钻
227: 勇闯夺命岛
228: 聚焦
229: 变脸
230: 2001太空漫游
231: 发条橙
232: 秒速5厘米
233: 黄金三镖客
234: 卡萨布兰卡
235: 黑鹰坠落
236: 非常嫌疑犯
237: 国王的演讲
238: 我爱你
239: 美国丽人
240: 千钧一发
241: 碧海蓝天
242: 遗愿清单
243: 疯狂的麦克斯4:狂暴之路
244: 功夫
245: 荒岛余生
246: 英国病人
247: 荒野生存
248: 海盗电台
249: 枪火
250: 勇士

 

 

 

 

 

 

    

标签:__,name,指环王,url,抓取,re,num,Top250,Python3
来源: https://www.cnblogs.com/pzk7788/p/10522131.html