Scrapy的基本使用
作者:互联网
一、基本命令
- 创建项目
scrapy startproject xxx
- 创建爬虫
scrapy genspider xxx
- 运行相应爬虫
scrapy crawl xxx
二、相关文件
1、相应的爬虫文件名称为自己创建的的xxx.py
2、爬虫项目的配置文件setting.py
- ROBOTSTXT_OBEY 是否遵循robots.txt协议
- USER_AGENT 爬虫请求时的请求头
- DOWNLOAD_DELAY 爬虫请求的频率
- ITEM_PIPELINES 是否打开管道
- LOG_ENABLED 是否打印日志
- LOG_LEVEL 打印日志的最低标准
...
3、管道,处理爬虫发过来的数据pipelines.py
4、一些中间件设置middlewares.py
5、变量类型(建议直接用字典)items.py
三、其他
- crawlspider自动查找新url地址并下载
- ImagePipeline图片下载保存管道
标签:基本,xxx,LOG,管道,py,爬虫,Scrapy,使用,scrapy 来源: https://www.cnblogs.com/yisicanmeng/p/16441346.html