screen-scraping

首页 > TAG信息列表 > screen-scraping

用Python抓取html或

我对我的(微生物学和遗传学)学生提出的论据之一是“数据”杂乱无章,Python可以帮助解决这一问题(其他语言当然也可以).因此,这是一种实用的基于Web的数据收集练习. 我注意到在代表最高的用户中,有人回答Python相关的问题.在自然产生的问题中：我希望在Stack Overflow上恢复(最高评级

使用BeautifulSoup刮取表

我有一个问题,我认为这很简单.我具有以下类型的页面,我希望从该页面中收集上一张表中的信息(如果一直向下滚动,则为“过程”框中的那个)： http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-2&language=EN 我要抓取的表格的html如下所示： <tbo

python-设计一个专门用于渲染文本的开放源代码OCR引擎(屏幕截图)

因此,我目前的个人项目是能够自动从游戏中抓取屏幕截图,对文本进行OCR,并计算给定单词的出现次数. 整夜都在研究不同的OCR解决方案,我意识到那里的大多数OCR软件包都是为扫描文本而设计的.如果有任何可以可靠读取屏幕文本的软件包,则超出了业余爱好者的预算. 我一直在阅读其他一些

python-屏幕抓取：处理POST登录

我刚开始使用屏幕抓取功能,并且正在尝试自动登录银行.我认为我基本上可以做到以下几点： >使用银行网页的源代码,一些工具和一些聪明的黑客工具,确定将登录数据发布到何处以及如何格式化. >用Python来实现.>世界统治. 到目前为止,我已经进入了步骤2.这是我的Python代码： #!/usr/bin/p

使用机械化和漂亮的汤在python中进行原始HTML与DOM抓取

我正在尝试编写一个程序,举例来说,该程序将使该网页的最高价失去作用： http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults 首先,通过执行以下操作,我可以轻松检索HTML： from urllib import urlopen from BeautifulSoup import BeautifulSoup import mechanize

java-如何使用光学字符识别来解析数字4

我正在研究一种OCR算法,该算法给出的图像包含一些数字.我希望它仅检测每个图像,并将其与其他图像分开. 除数字4之外,它对于所有0-9的数字都有效,这给我带来了很多麻烦. 这是我的原始图片：这是一些解析它的结果：如您所见,它们都被完美地解析了.给我带来麻烦的唯

javascript-阻止来自我的网站的cURL请求

我有一个包含大量产品和价格数据库的网站. 我一直在不断要求价格. 我曾想通过< noscript>来防止它标记,但是我能做的就是隐藏内容,机器人仍然可以抓取我的内容. 有没有一种运行JS测试的方法,以查看是否禁用了JS(以检测机器人)并重定向这些请求(可能在黑名单中). 这样做会阻止google

Selenium和PhantomJS需要30秒打开每个链接

我正在尝试使用Selenium和PhantomJS打开网站并获取一些数据,但是打开网站需要花费很多时间(大约30秒).每次我打开其他链接时,我都必须等待30秒.我的代码有什么问题？ static void Main(string[] args) { IWebDriver browser = new PhantomJSDriver();

使用Python中的BS4,Selenium收集动态数据并避免重复

我在这里尝试做的是从不断刷新信息的动态页面检索数据.我设置的方式是每60秒刷新一次.问题是,旧数据不会从页面中删除,因此当程序在刷新后浏览数据时,会出现重复. 注意：由于最初没有要刮刮的消息,程序在开始时就处于休眠状态. 我正在寻找一种方法或解决方案,以使用最后一条记录(在这

python-如何使用Scrapy从数据库中删除过期的项目

我正在使用蜘蛛视频网站,该网站经常使内容过期.我正在考虑使用scrapy进行爬网,但是不确定如何删除过期的项目. 检测某项是否过期的策略是： >搜寻网站的“ delete.rss”. >每隔几天,请尝试重新加载内容页面,并确保它仍然有效.>搜寻网站内容索引的每一页,如果找不到该视频,则将其删除.

java-从Flash抓取数据(游戏)

我看了this的视频,我真的很好奇它的表现.有人有什么想法吗？我的直觉是他从屏幕上抓取了像素(每个“盒子”一个),然后将其输入到某个程序中以确定下一步. 是逐个像素地进行刮擦,还是有更好的方法？我正在寻找使用Java或Python做类似的事情. 谢谢解决方法:可能那是最可靠的方法.有多种方

如何从JavaScript“ onclick window.open”事件中抓取URL？

我正在尝试从使用JavaScript的页面抓取URL.他们没有在页面上链接,而是为许多表行创建了onClick事件,因此,当您单击该行时,它将带您到链接. 我尝试使用Mechanize抓取网址： agent = Mechanize.new page = agent.get(url) page.links_with(:href => /^http?/).each do |link| puts

python-用BeautifulSoup和Requests抓取多个分页链接

Python初学者在这里.我正在尝试从one category on dabs.com抓取所有产品.我设法在给定页面上抓取了所有产品,但是在遍历所有分页的链接时遇到了麻烦. 现在,我尝试将所有的分页按钮都用span class =’page-list“隔离开,但即使这样也无法正常工作.理想情况下,我想让抓取工具继续单击

Python BeautifulSoup获取文本优先标记

我需要使用python中的BeautifulSoup将标签的文本设置为li标签的第一级. 问题是这些标签包含其他li标签,而这些li标签又包含其他标签. 范例html： <li> <a href="http://lol.lol">Text1</a><-- GET THIS <li> <a href="http://lol.lol">Text1</a><--

屏幕在C#中刮擦大型机屏幕*没有*第三方实用程序

我正在寻找用C#屏幕抓取3270大型机应用程序的方法,但是我必须在没有Attachmate或其他第3方插件的情况下执行此操作. C#中有免费的托管库吗？解决方法:http://www.elink.ibmlink.ibm.com/publications/servlet/pbi.wss?CTY=US&FNC=SRX&PBL=GA23-0059-07 如果您计划自己进行所有繁重的

设置可以在Google App引擎上运行的python屏幕抓取工具

我想设置一个自动的屏幕抓取工具,该工具将在使用python的Google App引擎上运行.我希望它抓取网站并将指定的结果放入App Engine中的Entity中.我正在寻找使用说明.我见过beautifulsoup,但想知道人们是否可以推荐其他可以在Google App引擎上运行的东西.解决方法:Beautifulsoup在App E

我们只能获取网页标题信息而不是正文吗？ (机械化)

如果自上次下载以来未更改页面,我只需要下载该怎么办？什么是最好的方法？我可以先获取页面的大小,然后比较以确定是否已更改,如果更改了,我要求下载,否则跳过？我计划使用(python)机械化.解决方法:该请求应为HEAD,而不是GET： 9.4 HEAD The HEAD method is identical to GET except

PHP-刮Xbox Live成员当前活动

我正在研究如何获得Xbox Live成员的身份(即不在线,在线播放_). 唯一的方法是登录Xbox.com,访问播放器的页面,然后从div中抓取一些文本. http://live.xbox.com:80/en-US/MyXbox/Profile?gamertag=example在这里看到 <div id="CurrentActivity"> Call of Duty Black Ops - In C

Python urllib2.open连接被对等错误重置

我正在尝试使用python抓取页面问题是,我不断使对等方重置Errno54连接. 当我运行此代码时出现错误- urllib2.urlopen("http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10161&langId=-1&programId=562&termI

python – 使用scrapy进行CPU密集型解析

http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-items的CONCURRENT_ITEMS部分将其定义为： Maximum number of concurrent items (per response) to process in parallel in the Item Processor (also known as the Item Pipeline). 这让我很困惑.这是否意

php – 正确的字符编码显示“â€”？

我有一些讨厌的字符编码问题,我无法弄清楚. 基本上,我是使用PHP从网站上抓取一些HTML,然后通过PHP的DOMDocument运行它来更改一些URL等等,当它完成后,它会输出一些奇怪的东西.例如：应该有一个结束语,它会发出& acirc; 我将charset的页面元标记设置为utf-8,然后是& acirc

使用PHP刮掉完整的图像src

我试图用php抓取img src,我可以很好地得到src,但是如果src不包含完整路径那么我就无法重用它.有没有办法使用PHP获取图像的完整路径(如果您使用右键菜单,浏览器可以获取它). 即.如何在以下两个示例之一中获取包含域的完整路径？ src="../foo/logo.png" src="/images/logo.png" 谢谢

python – Scrapy,在Javascript中抓取数据

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是：如何获取此类案例的值(文本值)？这是我试图筛选的网站： https://www.mcdonalds.com.sg/locate-us/ 我想要的属性：地址,联系方式,营业时间. 如果您在Chrome浏览器中执行“右

评估本地html文件上的javascript(无浏览器)

这是我正在努力工作的项目的一部分. 我想自动化一个Sharepoint站点,特别是从我和我的同事只有前端访问权限的数据库中提取数据. 我最终设法使用Python-NTLM来获得机械化(在python中),并通过修补其部分源代码来修复重复出现的错误. 现在,我希望是我最后的障碍：我需要提交的表单的一部

使用Selenium和Beautiful Soup的Python Scraping JavaScript

我正在尝试使用BS和Selenium抓取一个JavaScript启用页面. 到目前为止,我有以下代码.它仍然不会以某种方式检测JavaScript(并返回一个空值).在这种情况下,我试图在底部刮掉Facebook的评论. (Inspect元素将类显示为postText)谢谢您的帮助！ from selenium import webdriver from sel