编程语言
首页 > 编程语言> > 从Python运行Scrapy

从Python运行Scrapy

作者:互联网

我正在尝试从Python运行Scrapy.我正在查看以下代码(source):

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from testspiders.spiders.followall import FollowAllSpider

spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

我的问题是我对如何调整此代码以运行自己的蜘蛛程序感到困惑.我已经将我的蜘蛛项目称为“ spider_a”,该项目指定了要在蜘蛛本身内进行爬网的域.

我要问的是,是否可以使用以下代码运行Spider:

scrapy crawl spider_a

如何调整上面的示例python代码以执行相同操作?

解决方法:

只需将其导入并传递给crawler.crawl(),例如:

from testspiders.spiders.spider_a import MySpider

spider = MySpider()
crawler.crawl(spider)

标签:debian,web-scraping,scrapy,python
来源: https://codeday.me/bug/20191122/2063672.html