首页 > TAG信息列表 > scrapy-spider

python-如何通过外部脚本获取蜘蛛返回的数据?

当我执行这样的脚本时,如何查看Spider的parse函数的返回数据? from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider sp

python-scrapy中使用cookie的正确工作形式是什么

我是一个新手,我正在使用cookie的网络中使用scrapy,这对我来说是个问题,因为我可以在没有cookie的情况下获取网络数据,而在包含cookie的情况下获取网络数据对我来说是困难的.我有这个代码结构 class mySpider(BaseSpider): name='data' allowed_domains =[] start_url

python-运行scrapy Web搜寻器时出错

import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://w

爬虫蜘蛛不跟随链接

我正在写一个抓紧的蜘蛛从首页上抓取今天的NYT文章,但是由于某种原因,它没有任何链接.当我在scrapy shell http://www.nytimes.com中实例化链接提取器时,它成功地使用le.extract_links(response)提取了文章URL列表,但是我无法获得我的抓取命令(scrapy crawl nyt -o out.json)以抓取

扭曲的Python失败-严重问题

我正在尝试使用SCRAPY抓取该网站的任何搜索查询-http://www.bewakoof.com的搜索结果. 该网站使用AJAX(以XHR的形式)显示搜索结果.我设法跟踪了XHR,您在下面的代码中注意到了它(在for循环中,其中我将URL存储到temp,并在循环中递增“ i”)-: from twisted.internet import reactor fr

python-如何在Scrapy中通过CrawlerProcess传递自定义设置?

我有两个CrawlerProcesses,每个都调用不同的Spider.我想将自定义设置传递给这些过程之一,以将Spider的输出保存到csv,我想我可以这样做: storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'} process = CrawlerProcess(get_project_settings()) process.crawl(

如何将scrapy.Field填充为字典

我正在使用Scrapy(使用SitemapSpider蜘蛛)为www.apkmirror.com构建刮板.到目前为止,以下工作: DEBUG = True from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem class ApkmirrorSitemapSpider(SitemapSpider): name = 'a

python-将file_name参数传递给管道以在scrapy中导出csv

我需要从命令行中获取一个自变量(-a FILE_NAME =“ stuff”),并将其应用于在pipeline.py文件中由我的CSVWriterPipeLine创建的文件. (我之所以使用pipeline.py是因为内置的导出器正在重复数据并在输出文件中重复标题.相同的代码,但是在管道中进行写入修复了它.) 我尝试从scrapy.uti

python-HTML元素的Scrapy CSS选择器,其类包含非字母数字字符

我正在使用Scrapy爬网.我试图在响应中选择一个元素. 我的响应对象包含如下所示的HTML: <html> <head><title>Title goes here</title</head> <body> <!-- lots of stuff I am not interested in --> <select class="Gy(t)">

python-Scrapy停止抓取,但继续爬取

我正在尝试从网站的多个页面中抓取不同的信息. 在第十六页之前,所有工作:对页面进行爬网,抓取并将信息存储在我的数据库中.但是,在第16页之后,它会停止抓取,但会继续爬网.我检查了网站,并在470页中包含更多信息. HTML标签是相同的.所以我不明白为什么它停止报废. 我的密码 def url_

python – Scrapy CrawlSpider重试刮

对于我试图抓取的页面,我有时会在我的响应中找到一个“占位符”页面,其中包含一些自动加载的javascript,直到它获得真实页面.我可以检测到这种情况何时发生,我想重试下载并抓取页面.我在CrawlSpider中使用的逻辑类似于: def parse_page(self, response): url = response.url

python – Scrapy:抓取一个链接列表

这个问题在某种程度上是我之前提出的this问题的后续问题. 我试图刮一个网页,其中包含第一页上的一些链接.类似于this的东西. 现在,因为我想要抓取页面上的项目的详细信息,我已经提取了他们各自的URL. 我已将这些URL保存在列表中. 如何启动蜘蛛单独刮取页面? 为了更好地理解: [urlA,

python – 基于start_urls的Scrapy CrawlSpider动态规则?

我正在编写一个Scrapy scraper,它使用CrawlSpider来抓取网站,浏览其内部链接,并抓取任何外部链接的内容(链接与不同于原始域的域). 我设法使用2个规则执行此操作,但它们基于正在爬网的网站的域.如果我想在多个网站上运行这个问题,我会遇到一个问题,因为我不知道我目前正在使用哪个

python – 顺序运行多个Spider

Class Myspider1 #do something.... Class Myspider2 #do something... 以上是我的spider.py文件的架构.我试图先运行Myspider1,然后根据某些条件运行Myspider2倍数.我怎么能这样做?有小费吗? configure_logging() runner = CrawlerRunner() def crawl(): yield runner.crawl

python – selenium-webdriver:如何将循环用于find_elements

我想获取所有链接和start_time和end_time一页,然后发送到函数(parse_detail)以废弃另一个信息 但我不知道如何使用硒来循环 这是我的代码并且有错误: for site in sites: exceptions.TypeError: 'WebElement' object is not iterable 请教我如何在硒中使用环状scrapy.谢谢! class

python – Scrapy:收集重试消息

爬行程序有一个格式化次数,如here所示.到达之后,我收到类似于以下内容的错误: 重试< GET https:/ foo / bar / 123> (失败了3次) 我相信该消息是由代码here产生的. 但是,我想做一些关于放弃的事情.具体来说,我想知道是否有可能: >提取URL的123部分(ID)并将这些ID正确地写入单独的文件

python – Scrapy的最佳性能

我在我的专用服务器上使用Scrapy,我想知道如何为我的爬虫获得最佳性能. 这是我的自定义设置: custom_settings = { 'RETRY_ENABLED': True, 'DEPTH_LIMIT' : 0, 'DEPTH_PRIORITY' : 1, 'LOG_ENABLED' : False, 'CONCURRENT_REQUESTS_PER_DOMAIN&#

python – Scrapy循环 – xpath选择器转义它应用于并返回所有记录的对象?

我将从我试图用来迭代车辆集合并提取模型和价格的scrapy代码开始: def parse(self, response): hxs = Selector(response) split_url = response.url.split("/") listings = hxs.xpath("//div[contains(@class,'listing-item')]") fo

python – 废弃多个帐户,即多个登录

我已成功废弃单个帐户的数据.我想在一个网站上废弃多个帐户,多个帐户需要多次登录,我想要一种如何管理登录/注销的方法?解决方法:您可以使用每个帐户会话多个cookiejars并行刮取多个帐户, 请参阅http://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cooki

python – 使用Scrapy将参数传递给回调函数,因此可以在以后接收参数崩溃

我试图让这个蜘蛛工作,如果要求分别刮下它的组件,它可以工作,但是当我尝试使用Srapy回调函数来接收参数后,我会崩溃.目标是在输出json文件中以格式写入时抓取多个页面并刮取数据: 作者|专辑|标题|歌词 每个数据都位于不同的网页上,这就是我为什么要使用Scrapy回调函数来实现这一目标

python – 用scrapy抓取多个页面

我正在尝试使用scrapy来抓取一个包含多页信息的网站. 我的代码是: from scrapy.spider import BaseSpider from scrapy.selector import Selector from tcgplayer1.items import Tcgplayer1Item class MySpider(BaseSpider): name = "tcg" allowed_domains = ["http://ww

Scrapy如何处理Javascript

蜘蛛参考: import scrapy from scrapy.spiders import Spider from scrapy.selector import Selector from script.items import ScriptItem class RunSpider(scrapy.Spider): name = "run" allowed_domains = ["stopitrightnow.com"

python – 即使在收到200状态代码时重试Scrapy请求

有一个我正在抓取的网站,有时会返回200,但在response.body中没有任何文本(当我尝试用Selector解析时引发一个AttributeError). 是否有一种简单的方法来检查以确保正文包含文本,如果没有,请重试请求,直到它为止?这是一些伪代码来概述我正在尝试做什么. def check_response(response)

java – 如何在Web爬网中获取内容

嗨!我正在尝试为蜘蛛算法实现这个伪代码来探索网络.我需要一些关于伪代码下一步的想法:“使用SpiderLeg来获取内容”,我在另一个类SpiderLeg中有一个方法,它有一个方法来获取该网页的所有URL,但想知道如何在这个类中使用它? // method to crawl web and print out all URLs that the

python – 在for循环中运行多个spider

我尝试实例化多个蜘蛛.第一个工作正常,但第二个给我一个错误:ReactorNotRestartable. feeds = { 'nasa': { 'name': 'nasa', 'url': 'https://www.nasa.gov/rss/dyn/breaking_news.rss', 'start_urls': ['