scrapy-spider

首页 > TAG信息列表 > scrapy-spider

python-如何通过外部脚本获取蜘蛛返回的数据？

当我执行这样的脚本时,如何查看Spider的parse函数的返回数据？ from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider sp

python-scrapy中使用cookie的正确工作形式是什么

我是一个新手,我正在使用cookie的网络中使用scrapy,这对我来说是个问题,因为我可以在没有cookie的情况下获取网络数据,而在包含cookie的情况下获取网络数据对我来说是困难的.我有这个代码结构 class mySpider(BaseSpider): name='data' allowed_domains =[] start_url

python-运行scrapy Web搜寻器时出错

import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://w

爬虫蜘蛛不跟随链接

我正在写一个抓紧的蜘蛛从首页上抓取今天的NYT文章,但是由于某种原因,它没有任何链接.当我在scrapy shell http://www.nytimes.com中实例化链接提取器时,它成功地使用le.extract_links(response)提取了文章URL列表,但是我无法获得我的抓取命令(scrapy crawl nyt -o out.json)以抓取

扭曲的Python失败-严重问题

我正在尝试使用SCRAPY抓取该网站的任何搜索查询-http://www.bewakoof.com的搜索结果. 该网站使用AJAX(以XHR的形式)显示搜索结果.我设法跟踪了XHR,您在下面的代码中注意到了它(在for循环中,其中我将URL存储到temp,并在循环中递增“ i”)-： from twisted.internet import reactor fr

python-如何在Scrapy中通过CrawlerProcess传递自定义设置？

我有两个CrawlerProcesses,每个都调用不同的Spider.我想将自定义设置传递给这些过程之一,以将Spider的输出保存到csv,我想我可以这样做： storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'} process = CrawlerProcess(get_project_settings()) process.crawl(

如何将scrapy.Field填充为字典

我正在使用Scrapy(使用SitemapSpider蜘蛛)为www.apkmirror.com构建刮板.到目前为止,以下工作： DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSitemapSpider(SitemapSpider): name = 'a

python-将file_name参数传递给管道以在scrapy中导出csv

我需要从命令行中获取一个自变量(-a FILE_NAME =“ stuff”),并将其应用于在pipeline.py文件中由我的CSVWriterPipeLine创建的文件. (我之所以使用pipeline.py是因为内置的导出器正在重复数据并在输出文件中重复标题.相同的代码,但是在管道中进行写入修复了它.) 我尝试从scrapy.uti

python-HTML元素的Scrapy CSS选择器,其类包含非字母数字字符

我正在使用Scrapy爬网.我试图在响应中选择一个元素. 我的响应对象包含如下所示的HTML： <html> <head><title>Title goes here</title</head> <body>  <select class="Gy(t)">

python-Scrapy停止抓取,但继续爬取

我正在尝试从网站的多个页面中抓取不同的信息. 在第十六页之前,所有工作：对页面进行爬网,抓取并将信息存储在我的数据库中.但是,在第16页之后,它会停止抓取,但会继续爬网.我检查了网站,并在470页中包含更多信息. HTML标签是相同的.所以我不明白为什么它停止报废. 我的密码 def url_

python – Scrapy CrawlSpider重试刮

对于我试图抓取的页面,我有时会在我的响应中找到一个“占位符”页面,其中包含一些自动加载的javascript,直到它获得真实页面.我可以检测到这种情况何时发生,我想重试下载并抓取页面.我在CrawlSpider中使用的逻辑类似于： def parse_page(self, response): url = response.url

python – Scrapy：抓取一个链接列表

这个问题在某种程度上是我之前提出的this问题的后续问题. 我试图刮一个网页,其中包含第一页上的一些链接.类似于this的东西. 现在,因为我想要抓取页面上的项目的详细信息,我已经提取了他们各自的URL. 我已将这些URL保存在列表中. 如何启动蜘蛛单独刮取页面？为了更好地理解： [urlA,

python – 基于start_urls的Scrapy CrawlSpider动态规则？

我正在编写一个Scrapy scraper,它使用CrawlSpider来抓取网站,浏览其内部链接,并抓取任何外部链接的内容(链接与不同于原始域的域). 我设法使用2个规则执行此操作,但它们基于正在爬网的网站的域.如果我想在多个网站上运行这个问题,我会遇到一个问题,因为我不知道我目前正在使用哪个

python – 顺序运行多个Spider

Class Myspider1 #do something.... Class Myspider2 #do something... 以上是我的spider.py文件的架构.我试图先运行Myspider1,然后根据某些条件运行Myspider2倍数.我怎么能这样做？有小费吗？ configure_logging() runner = CrawlerRunner() def crawl(): yield runner.crawl

python – selenium-webdriver：如何将循环用于find_elements

我想获取所有链接和start_time和end_time一页,然后发送到函数(parse_detail)以废弃另一个信息但我不知道如何使用硒来循环这是我的代码并且有错误： for site in sites: exceptions.TypeError: 'WebElement' object is not iterable 请教我如何在硒中使用环状scrapy.谢谢！ class

python – Scrapy：收集重试消息

爬行程序有一个格式化次数,如here所示.到达之后,我收到类似于以下内容的错误：重试< GET https：/ foo / bar / 123> (失败了3次) 我相信该消息是由代码here产生的. 但是,我想做一些关于放弃的事情.具体来说,我想知道是否有可能： >提取URL的123部分(ID)并将这些ID正确地写入单独的文件

python – Scrapy的最佳性能

我在我的专用服务器上使用Scrapy,我想知道如何为我的爬虫获得最佳性能. 这是我的自定义设置： custom_settings = { 'RETRY_ENABLED': True, 'DEPTH_LIMIT' : 0, 'DEPTH_PRIORITY' : 1, 'LOG_ENABLED' : False, 'CONCURRENT_REQUESTS_PER_DOMAIN&#

python – Scrapy循环 – xpath选择器转义它应用于并返回所有记录的对象？

我将从我试图用来迭代车辆集合并提取模型和价格的scrapy代码开始： def parse(self, response): hxs = Selector(response) split_url = response.url.split("/") listings = hxs.xpath("//div[contains(@class,'listing-item')]") fo

python – 废弃多个帐户,即多个登录

我已成功废弃单个帐户的数据.我想在一个网站上废弃多个帐户,多个帐户需要多次登录,我想要一种如何管理登录/注销的方法？解决方法:您可以使用每个帐户会话多个cookiejars并行刮取多个帐户, 请参阅http://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cooki

python – 使用Scrapy将参数传递给回调函数,因此可以在以后接收参数崩溃

我试图让这个蜘蛛工作,如果要求分别刮下它的组件,它可以工作,但是当我尝试使用Srapy回调函数来接收参数后,我会崩溃.目标是在输出json文件中以格式写入时抓取多个页面并刮取数据：作者|专辑|标题|歌词每个数据都位于不同的网页上,这就是我为什么要使用Scrapy回调函数来实现这一目标

python – 用scrapy抓取多个页面

我正在尝试使用scrapy来抓取一个包含多页信息的网站. 我的代码是： from scrapy.spider import BaseSpider from scrapy.selector import Selector from tcgplayer1.items import Tcgplayer1Item class MySpider(BaseSpider): name = "tcg" allowed_domains = ["http://ww

Scrapy如何处理Javascript

蜘蛛参考： import scrapy from scrapy.spiders import Spider from scrapy.selector import Selector from script.items import ScriptItem class RunSpider(scrapy.Spider): name = "run" allowed_domains = ["stopitrightnow.com"

python – 即使在收到200状态代码时重试Scrapy请求

有一个我正在抓取的网站,有时会返回200,但在response.body中没有任何文本(当我尝试用Selector解析时引发一个AttributeError). 是否有一种简单的方法来检查以确保正文包含文本,如果没有,请重试请求,直到它为止？这是一些伪代码来概述我正在尝试做什么. def check_response(response)

java – 如何在Web爬网中获取内容

嗨！我正在尝试为蜘蛛算法实现这个伪代码来探索网络.我需要一些关于伪代码下一步的想法：“使用SpiderLeg来获取内容”,我在另一个类SpiderLeg中有一个方法,它有一个方法来获取该网页的所有URL,但想知道如何在这个类中使用它？ // method to crawl web and print out all URLs that the

python – 在for循环中运行多个spider

我尝试实例化多个蜘蛛.第一个工作正常,但第二个给我一个错误：ReactorNotRestartable. feeds = { 'nasa': { 'name': 'nasa', 'url': 'https://www.nasa.gov/rss/dyn/breaking_news.rss', 'start_urls': ['