首页 > TAG信息列表 > web-crawler

在Python中设计多进程蜘蛛

我正在使用Python开发多进程蜘蛛.它应该开始抓取一页链接并从那里开始工作.具体来说,顶层页面包含类别列表,这些类别中的第二层页面事件以及事件的最终第三层页面参与者.我无法预测会有多少个类别,事件或参与者. 我对如何最好地设计这样的蜘蛛(特别是如何知道它何时完成爬网)不知所

Java-爬行非英语网站的编码问题

我试图以字符串的形式获取网页的内容,但发现了一个问题how to write a basic web crawler,该问题声称(似乎)处理了编码问题,但是那里提供的代码适用于美国/英语网站,无法正确处理其他语言. 这是一个完整的Java类,演示了我所指的内容: import java.io.IOException; import java.io.I

python-识别网页上广告的机制[特别是AdBlock]

我目前正在做一个研究项目,因此我试图找出一种很好的方法来识别可以访问网页html的广告. 我认为从AdBlock开始可能是个好主意. AdBlock是一个阻止广告向用户显示的程序,因此大概它具有一种将事物识别为广告的机制. 我下载了AdBlockPlus的源代码,但发现自己完全迷失了所有文件.我不

Python BeautifulSoup错误

我有这个脚本: import urllib2 from BeautifulSoup import BeautifulSoup import html5lib import lxml soup = BeautifulSoup(urllib2.urlopen("http://www.hitmeister.de").read()) 但这给了我以下错误: Traceback (most recent call last): File "akaConnection.py&q

python-从网站解析-源代码不包含我需要的信息

尽管我已经进行了一年的编程工作,但我对Web爬虫还是有些陌生.因此,在我尝试解释我的问题时,请多多包涵. 我正在从Yahoo解析信息!新闻,而且我已经设法获得了我想要的大部分东西,但是有一小部分让我难过. 例如:http://news.yahoo.com/record-nm-blaze-test-forest-management-225730172

python-避免由于相对网址而导致的错误请求

我正在尝试使用Scrapy抓取网站,并且我要抓取的每个页面的网址都使用此类相对路径编写: <!-- on page https://www.domain-name.com/en/somelist.html (no <base> in the <head>) --> <a href="../../en/item-to-scrap.html">Link</a> 现在,在我的浏览器中,这些链接有效,并且您到达

python-Scrapy没有输入解析方法

我不明白为什么这段代码没有输入parse方法. 它与文档中的基本蜘蛛示例非常相似:http://doc.scrapy.org/en/latest/topics/spiders.html而且我很确定这可以在当天早些时候起作用…不确定是否修改了某些内容.. from selenium.webdriver.support.wait import WebDriverWait from selen

javascript-如何在访问该网页之前获取网页内容

如何获取给定URL的网页描述/内容. (类似Google的工具会简要说明每个结果链接).我想在我的jsp页面中执行此操作. 预先感谢!解决方法:想法:打开URL作为流,然后HTML-解析其description meta标签中的String. 抓取URL内容: URL url = new URL("http://www.url-to-be-parsed.com/page.html"

urllib2 urlopen读取超时/阻止

最近,我正在研究一个小型爬虫,用于在URL上下载图像. 我在urllib2中将openurl()与f.open()/ f.write()结合使用: 这是代码片段: # the list for the images' urls imglist = re.findall(regImg,pageHtml) # iterate to download images for index in xrange(1,len(imglist)+1):

python-Scrapy停止抓取,但继续爬取

我正在尝试从网站的多个页面中抓取不同的信息. 在第十六页之前,所有工作:对页面进行爬网,抓取并将信息存储在我的数据库中.但是,在第16页之后,它会停止抓取,但会继续爬网.我检查了网站,并在470页中包含更多信息. HTML标签是相同的.所以我不明白为什么它停止报废. 我的密码 def url_

什么是Java的良好Web搜索和Web爬网引擎?

我正在开发需要集成搜索引擎的应用程序.这也应该进行爬网.请提出一个好的基于Java的搜索引擎. 先感谢您.解决方法:Nutch(Lucene)是一个开源引擎,应该可以满足您的需求.

python-Scrapy视图返回空白页

我是Scrapy的新手,我只是想刮擦http://www.diseasesdatabase.com/ 当我输入scrapy view http://www.diseasesdatabase.com/时,它会显示一个空白页,但是如果我下载该页并在本地文件中进行处理,则它会照常显示.为什么会这样呢?解决方法:假装是一个提供User-Agent标头的真实浏览器: scr

爬虫脚本php

我在这里抓取了一段脚本来抓取网站,并将其放在我的服务器上,并且可以正常工作.唯一的问题是,如果我尝试将深度设置为高于4的任何值,它将不起作用.我想知道是否是由于服务器资源不足或代码本身. <?php error_reporting(E_ALL); function crawl_page($url, $depth) { static

python-我无法获取HTML页面的完整源代码

我想使用Python来爬网网页上的数据,该网页的来源如果很大(它是某个用户的Facebook页面). 假设该网址是我要抓取的网址.我运行以下代码: import urllib2 usock = urllib2.urlopen(url) data = usock.read() usock.close() 数据应该包含我正在爬网的页面的源,但是由于某些原因,它不

java-使用孔径爬网打开Web浏览器数据的任何可能性

我知道使用Aperture抓取网站.如果我在Mozila Web浏览器中打开http://demo.crawljax.com/.如何使用Aperture抓取打开的浏览器内容. 脚步: 1.在您的mozila firefox上打开http://demo.crawljax.com/.2.执行Java程序以抓取打开mozila firefox选项卡.解决方法:看来您需要抓取JavaScript /

python-Scrapy爬网所有站点地图链接

我想抓取他在固定站点的sitemap.xml中存在的所有链接.我遇到了Scrapy的SitemapSpider.到目前为止,我已经提取了站点地图中的所有网址.现在,我想通过站点地图的每个链接进行爬网.任何帮助将非常有用.到目前为止的代码是: class MySpider(SitemapSpider): name = "xyz" allow

如何编写python scrapy代码来提取站点站点地图中的url

我正在尝试使用此代码获取站点地图中的网址列表.当我运行这个,我看到屏幕上没有结果.任何人都可以告诉我这个问题是什么,或者建议我用一个很好的例子.提前致谢 class MySpider(SitemapSpider): name = "xyz" allowed_domains = ["xyz.nl"] sitemap_urls = ["http://www.xyz.nl/sit

关于PHP中的Web Crawler的错误

我正在尝试使用PHP创建一个简单的Web爬虫,它能够抓取.edu域,提供父级的种子URL. 我使用简单的html dom来实现爬虫,而一些核心逻辑是由我实现的. 我发布下面的代码,并将尝试解释问题. private function initiateChildCrawler($parent_Url_Html) { global $CFG; static $fo

python – 基于start_urls的Scrapy CrawlSpider动态规则?

我正在编写一个Scrapy scraper,它使用CrawlSpider来抓取网站,浏览其内部链接,并抓取任何外部链接的内容(链接与不同于原始域的域). 我设法使用2个规则执行此操作,但它们基于正在爬网的网站的域.如果我想在多个网站上运行这个问题,我会遇到一个问题,因为我不知道我目前正在使用哪个

python – 为什么Scrapy返回一个iframe?

我想通过Python-Scrapy抓取this site 我试试这个 class Parik(scrapy.Spider): name = "ooshop" allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"] def __init__(self, idcrawl=None, proxy=None, *args, **kwargs):

PHP抓取一个使用cloudflare的网站

我想从网站(不是我自己的)抓取一些特定的值(例如,newstext). file_get_contents()无效,可被php.ini阻止. 所以我试着用curl做,问题是: 我得到的只是来自cloudflare的重定向文本.我的爬虫应该做的事情如下:转到页面 – >等待5secs cloudflare重定向 – >卷曲页面. 有关如何在云端等待

python – 顺序运行多个Spider

Class Myspider1 #do something.... Class Myspider2 #do something... 以上是我的spider.py文件的架构.我试图先运行Myspider1,然后根据某些条件运行Myspider2倍数.我怎么能这样做?有小费吗? configure_logging() runner = CrawlerRunner() def crawl(): yield runner.crawl

如何通过PHP识别google / yahoo / msn的网页抓取工具?

据我所知, $_SERVER [‘REMOTE_HOST’]应以“google.com”或“yahoo.com”结尾. 但它是最保证的方法吗? 还有其他出路吗?解决方法:您可以在user agent and IP address之前识别搜索引擎.更多信息可以在How to identify search engine spiders and webbots中找到.它也值得注意this list

Java Web Crawler库

我想为实验制作一个基于Java的网络爬虫.我听说如果这是你第一次使用Java制作一个Web爬虫是可行的方法.但是,我有两个重要问题. >我的程序如何“访问”或“连接”到网页?请简要说明一下. (我理解从硬件到软件的抽象层的基础知识,这里我对Java抽象感兴趣) >我应该使用哪些库?我想我需要

在python中创建我自己的web爬虫,显示页面排名的主要思想

我正在尝试制作网页抓取工具,它显示了网页排名的基本概念.对我来说代码对我来说似乎很好但是给了我错误e.x. `Traceback (most recent call last): File "C:/Users/Janis/Desktop/WebCrawler/Web_crawler.py", line 89, in <module> webpages() File "C:/Users/Janis/Desk