其他分享
首页 > 其他分享> > pyspider总结

pyspider总结

作者:互联网

前言

pyspider是支持WebUI的,支持任务监控,项目管理,以及多种数据库的一个强大的爬虫框架,这个真的很好用!!!这主要不是教大家怎么使用,怎么怎么样,主要是让大家懂运行的原理,以及框架的整体结构!

今天主要是分为这几部分:

1.为什么要使用pyspider?
2.pyspider的安装
3.pyspider简单使用
4.pyspider框架的架构和执行流程

一、为什么要使用pyspider?

我们很好奇,我们明明有了Scrapy框架,为什么还要使用pyspider框架呢?我们说两点

二、pyspider的安装

pyspider的安装相对简单,不需要安装一些列的依赖库直接使用

pip install pyspider

然后等待安装成功就行,也可以使用源码安装 pyspider源码

三、pyspider的简单使用

1.安装之后先验证是否安装成功,在CMD下输入

pyspider

或者

pyspider all

两者是一样的,新的pyspider框架已经整合了,所以使用pyspider就好

  捕获.JPG

出现这个则说明运行成功,运行在5000端口,当然这个可以改

2.打开浏览器,输入

http://localhost:5000/

进入pyspider控制台


  捕获.JPG

出现这个则说明你的框架没什么问题!!!

我把框架的执行分为了这么几部分

2.执行点击run可以看到暂时执行后的结果
3.如果不正确,或者爬取信息有误,对右边代码部分进行调试
4.最后返回到控制界面,把status改成running,并点击后面的run按钮开始执行
分别显示5m、1h、1d5分钟一小时以及一天的爬取结果,绿色表示成功,红色表示请求次数太多而放弃,蓝色表示等待执行

一般的使用过程就是确定爬取的网站,创建项目,在crawl_config里进行配置,在index_page里确定要爬取的url,在detail_page里确定要爬取的数据信息

四、pyspider框架的架构和执行流程

1.pyspider框架的架构
pyspider的架构相对简单分为这么几个部分:scheduler(调度器)、fetcher(抓取器)、processor(脚本执行)任务由 scheduler发起调度,fetcher抓取网页内容, processor执行预先编写的py脚本,输出结果或产生新的提链任务(scheduler)、整个爬取的过程受,Monitor(监控器)的监控,结果保存在Result Worker(结果处理器)中。
2.每个 pyspider 的项目对应一个 Python 脚本,该脚本中定义了一个Handler 类,它有on_start ()方法 爬取首先调用 on_start ()方法生成最初的抓取任务,然后发送给 Scheduler进行调度

3.执行流程

五、出现错误

pyspider安装和使用出现的一些问题
初学pyspider跳过的坑
基本上常见的错误都在这了!



作者:Wangthirteen
链接:https://www.jianshu.com/p/39c7371dd6c2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

标签:总结,抓取,爬取,Scrapy,pyspider,page,页面
来源: https://www.cnblogs.com/xiaohuhu/p/12205807.html