Python3 抓取豆瓣电影Top250
作者:互联网
利用 requests 抓取豆瓣电影 Top 250:
import re import requests def main(url): global num headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"} req = requests.get(url, headers=headers) pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S) for name in re.findall(pattern, req.text): if name.startswith("&"): continue else: print("%s: %s" % (num, name)) num += 1 if __name__ == '__main__': num = 1 for i in range(0, 256, 25): url = "https://movie.douban.com/top250?start=%s&filter=" % i main(url)
执行结果:
1: 肖申克的救赎 2: 霸王别姬 3: 这个杀手不太冷 4: 阿甘正传 5: 美丽人生 6: 泰坦尼克号 7: 千与千寻 8: 辛德勒的名单 9: 盗梦空间 10: 忠犬八公的故事 11: 机器人总动员 12: 三傻大闹宝莱坞 13: 海上钢琴师 14: 放牛班的春天 15: 楚门的世界 16: 大话西游之大圣娶亲 17: 星际穿越 18: 龙猫 19: 教父 20: 熔炉 21: 无间道 22: 疯狂动物城 23: 当幸福来敲门 24: 怦然心动 25: 触不可及 26: 乱世佳人 27: 蝙蝠侠:黑暗骑士 28: 活着 29: 少年派的奇幻漂流 30: 天堂电影院 31: 控方证人 32: 鬼子来了 33: 十二怒汉 34: 指环王3:王者无敌 35: 天空之城 36: 飞屋环游记 37: 摔跤吧!爸爸 38: 大话西游之月光宝盒 39: 搏击俱乐部 40: 罗马假日 41: 哈尔的移动城堡 42: 闻香识女人 43: 窃听风暴 44: 辩护人 45: 两杆大烟枪 46: 飞越疯人院 47: 死亡诗社 48: 末代皇帝 49: 指环王2:双塔奇兵 50: V字仇杀队 51: 教父2 52: 素媛 53: 指环王1:魔戒再现 54: 海豚湾 55: 饮食男女 56: 美丽心灵 57: 狮子王 58: 情书 59: 寻梦环游记 60: 钢琴家 61: 美国往事 62: 本杰明·巴顿奇事 63: 小鞋子 64: 黑客帝国 65: 西西里的美丽传说 66: 看不见的客人 67: 让子弹飞 68: 拯救大兵瑞恩 69: 致命魔术 70: 大闹天宫 71: 七宗罪 72: 哈利·波特与魔法石 73: 被嫌弃的松子的一生 74: 音乐之声 75: 低俗小说 76: 天使爱美丽 77: 沉默的羔羊 78: 勇敢的心 79: 剪刀手爱德华 80: 蝴蝶效应 81: 猫鼠游戏 82: 春光乍泄 83: 心灵捕手 84: 布达佩斯大饭店 85: 禁闭岛 86: 入殓师 87: 穿条纹睡衣的男孩 88: 幽灵公主 89: 阿凡达 90: 阳光灿烂的日子 91: 第六感 92: 玛丽和马克思 93: 致命ID 94: 狩猎 95: 重庆森林 96: 断背山 97: 加勒比海盗 98: 摩登时代 99: 告白 100: 大鱼 101: 喜剧之王 102: 一一 103: 消失的爱人 104: 射雕英雄传之东成西就 105: 阳光姐妹淘 106: 甜蜜蜜 107: 爱在黎明破晓前 108: 小森林 夏秋篇 109: 侧耳倾听 110: 红辣椒 111: 倩女幽魂 112: 驯龙高手 113: 恐怖直播 114: 风之谷 115: 上帝之城 116: 请以你的名字呼唤我 117: 超脱 118: 爱在日落黄昏时 119: 菊次郎的夏天 120: 幸福终点站 121: 哈利·波特与死亡圣器(下) 122: 小森林 冬春篇 123: 杀人回忆 124: 神偷奶爸 125: 借东西的小人阿莉埃蒂 126: 7号房的礼物 127: 怪兽电力公司 128: 萤火之森 129: 唐伯虎点秋香 130: 岁月神偷 131: 超能陆战队 132: 蝙蝠侠:黑暗骑士崛起 133: 七武士 134: 电锯惊魂 135: 真爱至上 136: 谍影重重3 137: 疯狂原始人 138: 萤火虫之墓 139: 喜宴 140: 东邪西毒 141: 贫民窟的百万富翁 142: 英雄本色 143: 黑天鹅 144: 无人知晓 145: 记忆碎片 146: 心迷宫 147: 血战钢锯岭 148: 傲慢与偏见 149: 雨人 150: 时空恋旅人 151: 荒蛮故事 152: 纵横四海 153: 教父3 154: 卢旺达饭店 155: 玩具总动员3 156: 达拉斯买家俱乐部 157: 花样年华 158: 完美的世界 159: 海边的曼彻斯特 160: 海洋 161: 虎口脱险 162: 恋恋笔记本 163: 你看起来好像很好吃 164: 被解救的姜戈 165: 燃情岁月 166: 二十二 167: 头脑特工队 168: 冰川时代 169: 无敌破坏王 170: 雨中曲 171: 我是山姆 172: 你的名字。 173: 人工智能 174: 爆裂鼓手 175: 穿越时空的少女 176: 魂断蓝桥 177: 未麻的部屋 178: 猜火车 179: 三块广告牌 180: 模仿游戏 181: 一个叫欧维的男人决定去死 182: 房间 183: 罗生门 184: 忠犬八公物语 185: 完美陌生人 186: 恐怖游轮 187: 阿飞正传 188: 魔女宅急便 189: 香水 190: 朗读者 191: 浪潮 192: 哪吒闹海 193: 可可西里 194: 黑客帝国3:矩阵革命 195: 海街日记 196: 谍影重重 197: 战争之王 198: 谍影重重2 199: 牯岭街少年杀人事件 200: 地球上的星星 201: 一次别离 202: 追随 203: 青蛇 204: 惊魂记 205: 终结者2:审判日 206: 疯狂的石头 207: 撞车 208: 源代码 209: 再次出发之纽约遇见你 210: 小萝莉的猴神大叔 211: 步履不停 212: 新龙门客栈 213: 初恋这件小事 214: 梦之安魂曲 215: 爱在午夜降临前 216: 东京物语 217: 无耻混蛋 218: 城市之光 219: 天书奇谭 220: 绿里奇迹 221: 彗星来的那一夜 222: 这个男人来自地球 223: 海蒂和爷爷 224: E.T. 外星人 225: 末路狂花 226: 血钻 227: 勇闯夺命岛 228: 聚焦 229: 变脸 230: 2001太空漫游 231: 发条橙 232: 秒速5厘米 233: 黄金三镖客 234: 卡萨布兰卡 235: 黑鹰坠落 236: 非常嫌疑犯 237: 国王的演讲 238: 我爱你 239: 美国丽人 240: 千钧一发 241: 碧海蓝天 242: 遗愿清单 243: 疯狂的麦克斯4:狂暴之路 244: 功夫 245: 荒岛余生 246: 英国病人 247: 荒野生存 248: 海盗电台 249: 枪火 250: 勇士
标签:__,name,指环王,url,抓取,re,num,Top250,Python3 来源: https://www.cnblogs.com/pzk7788/p/10522131.html