首页 > 其他分享> > scrapy的简介

scrapy的简介

2021-07-09 17:03:37 作者：互联网

5+2的模式：五个模块，两个中间件

not found 404

五大模块简介

splider
编写爬虫逻辑
scheduler
调度spider(将spider url放入栈处理)
engine
负责各个模块之间的通信
downloader
从网上下载数据
pipline
处理数据，做持久化存储

其中scheduler、engine、downloader由框架自动调用

创建scrapy项目

创建项目
```
scrapy startproject 项目名
```

创建爬虫文件

scrapy genspider 爬虫文件名 域名（xx.xx.com）

编写爬虫文件
spider --> yield --> pipline ...

import scrapy


class CateyeSpider(scrapy.Spider):
	name = "cateye"
	allowed_domains = ["https://ssr1.scrape.center/"]
	start_urls = ["https://ssr1.scrape.center/"]

	def parse(self, response):
		for data in response.css(".el-card .el-row h2::text"):
			try:
				yield {"name": data.get()}
				# print(data)
			except:
				pass
				
				
	# response --> 返回downloader下载回的内容
	# 	-- response解析HTML的方法
	#		-- css
	#		-- xpath
	#		-- re
	#		-- extract

运行爬虫
```
scrapy crawl 爬虫文件
```

标签：downloader,--,简介,spider,爬虫,scrapy,response
来源： https://www.cnblogs.com/pmxisme/p/14991301.html