其他分享
首页 > 其他分享> > scrapy的简介

scrapy的简介

作者:互联网

5+2的模式:五个模块,两个中间件

not found 404

五大模块简介

  1. splider
    编写爬虫逻辑
  2. scheduler
    调度spider(将spider url放入栈处理)
  3. engine
    负责各个模块之间的通信
  4. downloader
    从网上下载数据
  5. pipline
    处理数据,做持久化存储

其中scheduler、engine、downloader由框架自动调用

创建scrapy项目

  1. 创建项目

    scrapy startproject 项目名
    
  2. 创建爬虫文件

    scrapy genspider 爬虫文件名 域名(xx.xx.com)
    
  3. 编写爬虫文件
    spider --> yield --> pipline ...

    import scrapy
    
    
    class CateyeSpider(scrapy.Spider):
    	name = "cateye"
    	allowed_domains = ["https://ssr1.scrape.center/"]
    	start_urls = ["https://ssr1.scrape.center/"]
    
    	def parse(self, response):
    		for data in response.css(".el-card .el-row h2::text"):
    			try:
    				yield {"name": data.get()}
    				# print(data)
    			except:
    				pass
    				
    				
    	# response --> 返回downloader下载回的内容
    	# 	-- response解析HTML的方法
    	#		-- css
    	#		-- xpath
    	#		-- re
    	#		-- extract
    	
    
  4. 运行爬虫

    scrapy crawl 爬虫文件
    

标签:downloader,--,简介,spider,爬虫,scrapy,response
来源: https://www.cnblogs.com/pmxisme/p/14991301.html