scrapy的简介
作者:互联网
5+2的模式:五个模块,两个中间件
五大模块简介
- splider
编写爬虫逻辑 - scheduler
调度spider(将spider url放入栈处理) - engine
负责各个模块之间的通信 - downloader
从网上下载数据 - pipline
处理数据,做持久化存储
其中scheduler、engine、downloader由框架自动调用
创建scrapy项目
-
创建项目
scrapy startproject 项目名
-
创建爬虫文件
scrapy genspider 爬虫文件名 域名(xx.xx.com)
-
编写爬虫文件
spider --> yield --> pipline ...
import scrapy class CateyeSpider(scrapy.Spider): name = "cateye" allowed_domains = ["https://ssr1.scrape.center/"] start_urls = ["https://ssr1.scrape.center/"] def parse(self, response): for data in response.css(".el-card .el-row h2::text"): try: yield {"name": data.get()} # print(data) except: pass # response --> 返回downloader下载回的内容 # -- response解析HTML的方法 # -- css # -- xpath # -- re # -- extract
-
运行爬虫
scrapy crawl 爬虫文件
标签:downloader,--,简介,spider,爬虫,scrapy,response 来源: https://www.cnblogs.com/pmxisme/p/14991301.html