Scrapy面试合集
作者:互联网
(1)Scrapy爬虫工作流程
ScrapyEngine:引擎
Scheduler:调度器(队列)
Downloader:下载器
DownloaderMiddlewares:可选,主要有User_Agent, Proxy代理
Spiders:爬虫(提取数据、url)
ItemPipeline:管道
需要发送请求的url经过引擎交给调度器,经过调度器排序入队处理后通过引擎、DownloaderMiddlewares交给Downloader,
下载器返回respose给引擎和SpiderMiddlewares(可选),再交给爬虫进行数据、url提取,并将数据经引擎交给保存。
其中爬虫提取的url,会重新经过引擎交给调度器进行下一个循环,直到无url请求程序停止结束。
标签:url,爬虫,调度,面试,Scrapy,引擎,交给,合集 来源: https://www.cnblogs.com/Eliphaz/p/14659111.html