首页 > TAG信息列表 > mechanize

为什么机械化列出一种形式?

如果运行以下程序: import mechanize br = mechanize.Browser() br.open("http://hansardindex.ontla.on.ca/hansarde.asp") for f in br.forms(): print f.name 仅打印一行输出.但是,如果您访问该页面,则有许多名称为“ DateFrom”的表格.机械化为什么不列出其他形式?解决方

python-机械化提交

我们有一个表单,其中包含一些单独的提交按钮,它们可以执行不同的操作.问题是我有几个带有以下HTML的按钮: <input type="submit" name="submit" value="Submit" class="submitLink" title="Submit" /> <input type="submit" name="submit"

python-302s和urllib2丢失cookie

我正在将liburl2与CookieJar / HTTPCookieProcessor结合使用,以尝试模拟登录页面以自动上传. 我已经看到了一些问题和答案,但是没有什么能解决我的问题.当我模拟登录最终以302重定向结束时,我丢失了cookie. 302响应是服务器设置cookie的位置,但是urllib2 HTTPCookieProcessor似乎在

使用机械化和漂亮的汤在python中进行原始HTML与DOM抓取

我正在尝试编写一个程序,举例来说,该程序将使该网页的最高价失去作用: http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults 首先,通过执行以下操作,我可以轻松检索HTML: from urllib import urlopen from BeautifulSoup import BeautifulSoup import mechanize

强制机械化使用SSLv3

您将如何强制mechanize将SSLv3用于需要它的HTTPS URL?如果我尝试对所有仅SSLv3的URL使用机械化,则会收到错误消息: URLError: <urlopen error [Errno 1] _ssl.c:504: error:140773E8:SSL routines:SSL23_GET_SERVER_HELLO:reason(1000)> 解决方法:肮脏的答案…不需要修补. import

javascript-使用python单击在线js按钮

我试图在http://www.priceline.com/中单击“搜索所有航班”按钮,但出现了一些问题. 我知道机械化不适用于javascript,所以我试着在源代码上尝试执行按钮的功能,但我找不到该功能.还有其他方法吗?解决方法:我建议使用硒(download link),它对javascript非常支持. All docs here. 这是

如何机械化添加到选择列表?

我刚刚开始尝试通过机械化提交Web表单.在this webpage上,有一个列表可供选择,MASTER_MODS.可以在MODS中使用按钮add_MODS来选择它们,或者在IT_MODS中使用按钮add_IT_MODS来选择它们(请参见底部的图).在表单中,它看起来像这样(表单底部的代码): <<SNIP>> <SelectControl(MODS=[*---

机械化(python)单击javascript类型链接

是否可以机械化遵循javascript类型的锚链接? 我正在尝试使用机械化和beautifulsoup登录python中的网站. 这是锚链接 <a id="StaticModuleID15_ctl00_SkinLogin1_Login1_Login1_LoginButton" href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("StaticMo

python机械化javascript提交按钮问题!

我用mechanize.browser模块制作了一些脚本. 问题之一是所有其他事情都可以,但是当submit()表单不起作用时, 所以我被发现有一些怀疑来源. 在html源中,我被发现如下. 我在想,loginCheck(this)在提交表单时出现问题. 但是如何使用机械化模块处理这种javascript函数,所以我可以 成功提

python和机械化-在选择字段中查看选项

我的html表单如下所示: <form name="someform"> <select name="someid"> <option value ="option1"> 我正在尝试查看所有选择并能够选择它们. 我可以选择这样的形式: br.select_form("someform") 我可以打印(br)并查看所需的SelectControl.如果我做

以机械化形式选择未命名的文本字段(Python)

因此,我正在制作一个程序,以使用机械化和python将街道地址批量转换为gps坐标.这是我第一次使用机械化.我可以在页面上选择表单(“ form2”),但是表单中的文本框没有名称.如何选择文本框以便机械化可以输入我的文本?我尝试通过其ID选择它.那行不通. br.select_form("Form2") #works

python-Web Scraper:限制单个域中每分钟/小时的请求?

我正在与图书馆员一起重新组织其组织的数字摄影档案. 我用Mechanize和BeautifulSoup构建了一个Python机器人,可以从集合中提取大约7000个结构不良和轻微错误/不完整的文档.数据将格式化为电子表格,供他用来更正.现在,我估计总共有7500个HTTP请求来构建搜索字典,然后收集数据,不计算

如何从JavaScript“ onclick window.open”事件中抓取URL?

我正在尝试从使用JavaScript的页面抓取URL.他们没有在页面上链接,而是为许多表行创建了onClick事件,因此,当您单击该行时,它将带您到链接. 我尝试使用Mechanize抓取网址: agent = Mechanize.new page = agent.get(url) page.links_with(:href => /^http?/).each do |link| puts

如何在Python中从Mechanize获取当前URL?

我正在尝试登录并从下一页获取URL: br = mechanize.Browser() url = "http://www.blahblah.com/login-page/" br.open( url ) br.select_form(nr = 1) br.form['username'] = "Foo" br.form['password'] = "fooPswRd" br.submit() …到现

Python机械化跟随图像链接?

机械化的Browser类很棒,并且follow_link()函数也很棒.但是如何处理这种链接: <a href="http://example.com"><img src="…"></a> 有什么方法可以追踪这样的链接吗?这种链接的文本属性只是“ [IMG]”,因此AFAIK无法区分这些链接.任何帮助,将不胜感激.解决方法:要跟踪此类链接,您需要

我们只能获取网页标题信息而不是正文吗? (机械化)

如果自上次下载以来未更改页面,我只需要下载该怎么办? 什么是最好的方法?我可以先获取页面的大小,然后比较以确定是否已更改,如果更改了,我要求下载,否则跳过? 我计划使用(python)机械化.解决方法:该请求应为HEAD,而不是GET: 9.4 HEAD The HEAD method is identical to GET except

python-如何检查网页的弹出窗口?

如果我用python编写的程序允许使用mechanize到automatically browse a given website来检测是否存在使用Python的弹出窗口(建议广告或下载操作…),是否有可能?我将不胜感激(例如,如果您给我一个可以完成此任务的图书馆,我将非常高兴)解决方法:机械化无法处理javascript和弹出窗口: >

python – 使用mechanize登录megaupload

我试图使用以下代码登录megaupload.我的问题是,我如何成功登录?我打印出代码末尾的当前URL,但是当我运行脚本时,它只返回www.megaupload.com. import mechanize import cookielib from BeautifulSoup import BeautifulSoup import html2text # Browser br = mechanize.Browser()

python – 错误 – urlopen错误[Errno 8] _ssl.c:504:EOF发生违反协议

我的目的是在输入谷歌搜索词后从第一页的所有链接中提取html.我在代理后面工作,所以这是我的方法. 1.我首先使用mechanize在表单中输入搜索词,我已正确设置代理和机器人. 2.提取链接后,我使用了全局使用urllib2.ProxyHandler的开启工具,单独打开网址. 但是这给了我这个错误.无法搞

在Debian上获取Python 3机械化的最简单方法是什么?

我最近想要将使用mechanize.Browser的scraper移植到Python 3.我还没有找到任何python3-mechanize包或类似的东西.我还不熟悉使用一些特殊程序构建Python模块,所以我不知道如何在那里使用2to3.有什么建议么? @编辑: 我接受Sibi的答案,因为它目前是最好的.如果它只是指向一个更好的解决

机械化为Java

我想知道是否有类似Perl的/ Python的Java机制. 谢谢!解决方法:看一下HtmlUnit.它类似于Perl的WWW::Mechanize.还有一个名为WWW::HtmlUnit的Perl版本(它使用Inline::Java将Java库的方法暴露给Perl).

Python使用webbrowser,urllib和CookieJar验证并启动私有页面

我想使用cookiejar登录,并且不启动登录页面,而是启用经过身份验证后才能看到的页面.我知道机械化这样做但除了现在不为我工作之外,我宁愿这样做也没有它.我现在有, import urllib, urllib2, cookielib, webbrowser from cookielib import CookieJar username = 'my_username' pas

javascript – 自动化与网站的互动 – Rails

我正在尝试自动登录并在网站上发布一些内容,但我不能使用Mechanize,因为涉及许多javascript操作.我想知道是否有任何其他宝石/工具使用该支持javascript. 我也尝试过Watir,但它涉及到浏览器,我想要一个没有浏览器的选项. 谢谢,解决方法:有几种选择: > PhantomJS > capybara-webkit>

使用Python从inspect元素中获取代码

在Safari浏览器中,我可以右键单击并选择“Inspect Element”,然后会出现很多代码.是否可以使用Python获取此代码?最好的解决方案是获取包含代码的文件. 更具体地说,我试图找到这个页面上图像的链接:http://500px.com/popular.我可以看到“Inspect Element”中的链接,我想用Python检索

Python Mechanize更改未命名的输入值(已知id)

正如在主题中写的我必须使用mechanize更改某些输入字段的值,但我没有它的名称只有id:/让我们坚持这一点. 这是表单的外观: <form id="Login" name="Login"> <div id="login-inputs-div"> <input id="Username" type="hidden" name="usern