首页 > TAG信息列表 > web-scraping

python-使用beautifulsoup4进行抓取时数据丢失

实际上,我是使用Python Beautifulsoup4进行解析的新手.我正在抓取this website.我需要在首页上显示“当前每百万价格”. 我已经花了3个小时了.在互联网上寻找解决方案时.我知道有一个PyQT4库,它可以像Web浏览器一样模拟并加载内容,然后在完成加载后就可以提取所需的数据.但是我坠毁

使用Python和Beautiful Soup解析HTML

<div class="profile-row clearfix"><div class="profile-row-header">Member Since</div><div class="profile-information">January 2010</div></div> <div class="profile-row clearfix"&

需要JavaScript支持的页面上的cURL请求

我需要获取pinnaclesports.com的HTML源.问题是它检测是否启用了cookie和JS,如果未启用,则仅返回一些页面 This site requires JavaScript and Cookies to be enabled. Please change your browser settings or upgrade your browser. 使用cURL时,有什么方法可以欺骗JS支持? 编辑:

如何使用Urllib2更有效地抓取?

新手在这里.我使用urllib2编写了一个简单的脚本,以浏览Billboard.com,并从1958年到2013年的每一周抓取最佳歌曲和歌手.问题是它非常缓慢-可能要花几个小时才能完成. 我想知道瓶颈在哪里,是否有办法更有效地利用Urllib2进行刮擦,或者是否需要使用更复杂的工具? import re import url

从Python运行Scrapy

我正在尝试从Python运行Scrapy.我正在查看以下代码(source): from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log from testspiders.spiders.followall import FollowAllSpider spider = Fol

硒python绑定是否需要firefox

嗨,我刚刚下载并安装了selenium,但是我无法确定如何使其正常工作,我正在使用以下示例进行测试…. from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() #this is where I hit the error driver.get("http://w

python-如何通过外部脚本获取蜘蛛返回的数据?

当我执行这样的脚本时,如何查看Spider的parse函数的返回数据? from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider sp

如何在Heroku的Rails应用程序中运行python脚本?

我在heroku中托管了Rails应用程序.我还用python中的scrapy编写了一个Web scraper.我需要从heroku中的rails应用程序运行python脚本,我将举一个例子进行解释. 例如:用户在我的Rails应用程序中输入要抓取的URL,然后Rails应用程序控制python脚本以抓取数据并将数据作为json对象发送.然

javascript-单击并使用BS4 python抓取aspx页面

我试图通过单击一个按钮来抓取网站.我尝试使用萤火虫和谷歌浏览器控制台.我无法捕获正在发送的请求,以避免单击按钮.单击以下URL中的搜索按钮时,我仅看到两个.js文件作为请求 http://www.icsi.edu/Facilities/MembersDirectory.aspx解决方法:我认为处理此问题的最简单方法是使用Sel

python-使用beautifulsoup4的CSS选择不起作用

我尝试了bs4,但是select方法不起作用. 我的代码有什么问题? import requests import bs4 def main(): r = requests.get("http://nodejs.org/download/") soup = bs4.BeautifulSoup(r.text) selector = "div.interior:nth-child(2) > table:nth-child(2) > tbo

Python-网页搜罗-BeautifulSoup

我是BeautifulSoup的新手,正在尝试从以下网站提取数据:http://www.expatistan.com/cost-of-living/comparison/phoenix/new-york-city 我正在尝试提取每种类别(食物,住房,衣服,交通,个人护理和娱乐)的汇总百分比.因此,对于上面提供的链接,我想提取百分比:48%,129%,63%,43%,42%,42%和72%. 不

Python Web Scraping表返回None

我正在尝试从www.intellicast.com刮擦桌子的温度元件 soup = BeautifulSoup(urllib2.urlopen('http://www.intellicast.com/Local/History.aspx?location=USTX0057').read()) for row in soup('table',{'id':'dailyClimate'})[0].tbody('tr&#

可以单独使用scrapy刮取iframe的内容吗?

我尝试复制并粘贴网站的elements(xpath),但未返回任何结果. 可以抓取iframe内的数据吗?若是,应如何处理;若否,应做哪些其他事情?谢谢! rules = (Rule (SgmlLinkExtractor(deny = path_deny_base, restrict_xpaths=('*')) , callback="parse", follow= True), ) def pars

python-运行scrapy Web搜寻器时出错

import scrapy class ExampleSpider(scrapy.Spider): name = "example" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://w

如何使用python从Intranet站点抓取URL数据?

我需要一个Python战士来帮助我(我是菜鸟)!我正在尝试使用Module urllib从Intranet网站中抓取某些数据.但是,由于这是我公司的网站,仅供员工查看而不向公众公开,因此我认为这是获得以下代码的原因: IOError :(“ http错误”,401,“未经授权”,) 我该怎么办?它甚至不会使用htmlfile.read(

无法使用Python请求会话模块登录网站

我只是从网络抓取开始.对于我的第一个项目,我试图使用request.Session()登录artofproblemsolving.com并访问另一个用户的帐户.这是我的代码: import requests LOGIN_URL = 'https://www.artofproblemsolving.com/Forum/ucp.php?mode=login' DATA_URL = 'https://www.artofproblems

如何在python中刮取网页上的嵌入式脚本

例如,我有网页http://www.amazon.com/dp/1597805483. 我想用xpath来抹掉这句话.在全球进行的所有体育运动中,没有一项比美国的国家消遣棒球更具有诅咒和迷信了. page = requests.get(url) tree = html.fromstring(page.text) feature_bullets = tree.xpath('//*[@id="iframeConten

如何使用python beautifulSoup刮取深层嵌入的链接

我正在尝试为学术目的构建蜘蛛/网络爬虫,以从学术出版物中获取文本并将相关链接附加到URL堆栈.我正在尝试抓取1个名为“ PubMed”的网站.我似乎无法抓住我需要的链接.这是我的带有示例页面的代码,此页面应代表他们数据库中的其他人: website = 'http://www.ncbi.nlm.nih.gov/pubme

python-BeautifulSoup找不到标签

我正在尝试抓取this page和所有其他类似的页面.我一直在使用BeautifulSoup(也尝试过lxml,但存在安装问题).我正在使用以下代码: value = "http://www.presidency.ucsb.edu/ws/index.php?pid=99556" desiredTag = "span" r = urllib2.urlopen(value) data = BeautifulSoup(r.read(),

如何刮AJAX网站?

过去,我使用urllib2库从网站获取源代码.但是,我注意到,对于一个我一直在尝试使用的最新网站,我无法在源代码中找到所需的信息. http://www.wgci.com/playlist是我一直在寻找的站点,我想获取最近播放的歌曲和最近歌曲的播放列表.我本质上是想在网站上复制并粘贴可见的显示文本,并将

python-Scrapy没有输入解析方法

我不明白为什么这段代码没有输入parse方法. 它与文档中的基本蜘蛛示例非常相似:http://doc.scrapy.org/en/latest/topics/spiders.html而且我很确定这可以在当天早些时候起作用…不确定是否修改了某些内容.. from selenium.webdriver.support.wait import WebDriverWait from selen

扭曲的Python失败-严重问题

我正在尝试使用SCRAPY抓取该网站的任何搜索查询-http://www.bewakoof.com的搜索结果. 该网站使用AJAX(以XHR的形式)显示搜索结果.我设法跟踪了XHR,您在下面的代码中注意到了它(在for循环中,其中我将URL存储到temp,并在循环中递增“ i”)-: from twisted.internet import reactor fr

如何使用Python读取本地存储?

我必须使用Python来自动访问(阅读)网页.使用Python,我可以轻松访问网页的内容(HTML代码)以及服务器发送的cookie. 现在,在HTML5中,我们有了一个新概念“本地存储”.因此,我需要修改Python脚本,以便还可以读取本地存储中存储的数据. 有可能这样做吗?是否有任何Python库可简化此操作?解

python-使用beautifulsoup在表的第二列中打印文本

我编写了这段代码来从this页的表中检索文本.当我将其用于第一列时,它可以正常工作: from bs4 import BeautifulSoup import urllib2 #xbmc, xbmcgui, xbmcaddon url = 'http://racing4everyone.eu/formula-e-201516/' page = urllib2.urlopen(url) soup = BeautifulSoup(page.read

python-无法使用BeautifulSoup检索所需XPATH的元素

我刚开始使用Web抓取功能,并且正在使用BeautifulSoup(Python)进行这项工作.我想获取示例网页的一些属性数据进行测试.代码开始如下, import requests from bs4 import BeautifulSoup as Soup page = "http://www.zillow.com/homedetails/1630-Amalfi-Dr-Pacific-Palisades-CA-902