首页 > TAG信息列表 > 取快
爬虫学习笔记-实战爬取快代理
爬取快代理网站内容 二话不说,码来!!! 完整代码如下: import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36关于爬虫ip:爬取快代理的免费代理ip
import requests import parsel import time,random headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36' } def get_ips(): proxies_list = []scrapy爬取快代理并保存mongo数据库
我们先分析下网页 这个网友的页面规律很简单 https://www.kuaidaili.com/free/inha/1 https://www.kuaidaili.com/free/inha/2 这个是页面跳转,然后xpath的规则提取很简单 接下来是代码 items.py class url(scrapy.Item): #抓取内容 ip=scrapy.Field() port=sc