html-parsing

首页 > TAG信息列表 > html-parsing

java-如何在HTML文件中搜索某些标签？

我在Java中有一个小问题. 操作方法：我想在HTML文件中搜索标签href和src,然后获取与该标签关联的URL. 最好的方法是什么？谢谢您的帮助.最好的祝福.解决方法:这是我用来完全完成您想要做的事情的代码,但首先让我给您一些提示. 如果您在Java Swing环境中,请确保使用javax.swing.text.ht

php-从HTML读取属性值

我将HTML存储在字符串中.标记包含称为initval和endval的表单输入字段,这是我需要的值属性值.如何从此字符串标记中获取它们？ <form id="compute"> <input type="hidden" name="initval" value="tal:00far" /> <input type="hidden" name="endva

在C#中解析HTML部分

我需要从HTML字符串中解析部分.例如： <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit.</p> <p>[section=quote]</p> <p>Mauris at turpis nec dolor bibendum sollicitudin ac quis neque.</p> <p>[/section]</p> 解析报价部分应返

html解析器python

我正在尝试解析一个网站.我正在使用HTMLParser模块.问题是我想解析第一个< a href =“”>评论之后：<！-/ topOfPage-&gt ;,但我真的不知道该怎么做.因此,我在文档中发现有一个称为handle_comment的函数,但是我还没有找到如何正确使用它的方法.我有以下几点： import HTMLParser class

php-自动换行/剪切HTML字符串中的文本

在这里,我想做的是：我有一个包含HTML标签的字符串,并且我想使用除HTML标签之外的自动换行功能将其剪切. 我被卡住了： public function textWrap($string, $width) { $dom = new DOMDocument(); $dom->loadHTML($string); foreach ($dom->getElementsByTagName('*') as $

python-使用xpath获取部分字符串匹配的html标签

html代码是盲目的,并且在html中包含字符串“ PRICE”.该部分字符串必须与html文本匹配.如果文本使用xpath匹配(部分匹配),则应返回特定的html标签路径. 注意：我需要针对多个站点自动执行此逻辑,我必须使用通用规则 (用于定位“价格”,获取父标签) 这是示例： html="""<div id = "pric

php-查找并替换可能部分位于html标记内的字符串

任何人都可以提出以下解决方案. 例如,我有一串文字“ Suspendisse potenti”. 我需要搜索一些html字符串并将其包装在span标签中：以便 <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Pellentesque scelerisque neque in eros convallis egestas. Phasellus lacus

使用带有Javascript的Xpath解析HTML

在.NET中,有一个可爱的库,它使我可以使用xpath查询(HTML Agility Project)轻松解析外部html页面-问题是我必须在客户端执行此操作,因此只能使用javascript.有什么办法吗？解决方法:jQuery还支持xPath选择器以及CSS,您可以从下面的链接中获取更多信息. http://docs.jquery.com/DOM/Tra

Python,LXML-访问文本

我目前有点想法,我真的希望您能给我一个提示：最好用一小段示例代码来解释我的问题： from lxml import etree from io import StringIO testStr = "<b>text0<i>text1</i><ul><li>item1</li><li>item2</li></ul>text2<b/><b>sib</b>

javascript-使用documentFragment解析HTML而不发送HTTP请求

我想解析一个字符串,并用它来制作DOM树.我决定使用documentFragment API,到目前为止,我已经这样做了： var htmlString ="Some really really complicated html string that only can be parsed by a real browser!"; var fragment = document.createDocumentFragment('div'); var t

php-在preg_match()中使用什么正则表达式？

我对正则表达式不是很熟悉,因此我真的需要您的帮助. 我正在解析网站的源代码,并且我感兴趣的信息(称为XXXX)被以下代码包围： Number of people </p> <p style="font-size: 150%;"> <b>XXXX</b> 注意：我已直接从源代码复制了此代码,因

如何使用Urllib2更有效地抓取？

新手在这里.我使用urllib2编写了一个简单的脚本,以浏览Billboard.com,并从1958年到2013年的每一周抓取最佳歌曲和歌手.问题是它非常缓慢-可能要花几个小时才能完成. 我想知道瓶颈在哪里,是否有办法更有效地利用Urllib2进行刮擦,或者是否需要使用更复杂的工具？ import re import url

使用bs4提取html文件中的文本

要从我的html文件中提取文本.如果我在下面使用特定文件： import bs4, sys from urllib import urlopen #filin = open(sys.argv[1], 'r') filin = '/home/iykeln/Desktop/R_work/file1.html' webpage = urlopen(filin).read().decode('utf-8') soup = bs4.BeautifulS

使用美丽的汤从非类节中获取数据

我还是非常新手,正在学习python和漂亮的汤.我已经迷上了如何从非类HTML中获取文本. 这是我正在使用的HTML的代码段： <section class="userbody"> <script type="text/javascript"></script> <figure class="iw"> <div id="ci">

如何在python中刮取网页上的嵌入式脚本

例如,我有网页http://www.amazon.com/dp/1597805483. 我想用xpath来抹掉这句话.在全球进行的所有体育运动中,没有一项比美国的国家消遣棒球更具有诅咒和迷信了. page = requests.get(url) tree = html.fromstring(page.text) feature_bullets = tree.xpath('//*[@id="iframeConten

如何使用python beautifulSoup刮取深层嵌入的链接

我正在尝试为学术目的构建蜘蛛/网络爬虫,以从学术出版物中获取文本并将相关链接附加到URL堆栈.我正在尝试抓取1个名为“ PubMed”的网站.我似乎无法抓住我需要的链接.这是我的带有示例页面的代码,此页面应代表他们数据库中的其他人： website = 'http://www.ncbi.nlm.nih.gov/pubme

如何使用Python获取CSS背景颜色？

基本上完全按照问题所述,我正在尝试从网站获取背景色. 目前,我正在使用BeautifulSoup来获取HTML,但是事实证明,获取CSS很难.任何帮助将是巨大的！解决方法:这不是您可以使用BeautifulSoup可靠解决的问题.您需要一个真正的浏览器. 最简单的选择是使用selenium浏览器自动化工具： from s

javascript-使用htmlparser2将html字符串解析为json

我正在尝试使用htmlparser2(https://www.npmjs.com/package/htmlparser2)将html原始字符串解析为json. 但是它的用法仅注销标签/文本,我想要的是像livedemo(http://demos.forbeslindesay.co.uk/htmlparser2/)这样的json,以便我可以过滤所需的元素. 任何帮助或建议,将不胜感激！解决方

python-很多空白beautifulsoup

我正在使用beautifulsoup进行网页抓取.该网页具有以下来源： <td>\n<a href="http://aaa.com">Charles</a>\r\n (hello)\r\n </td>, <td>\n<a href="http://bbb.com">Diane<

C#System.NullReferenceException NSoup

for (int x = 0; x < 50; x++) { NSoupClient.Connect("https://steamcommunity.com/gid/" + x) .UserAgent("Firefox") .Timeout(10000) .Get(); } 这段代码将向我抛出此错误(当int为5时,它总是停止)： An unhandled

php-检查链接交换

我已经与另一个站点进行了链接交换. 3天后,该网站删除了我的链接. 是否有一个简单的PHP脚本来帮助我控制链接交换并通知我是否删除了我的链接？我需要它尽可能简单,而不是整个广告.系统管理员.解决方法:如果您知道广告(链接)所在的网页的URL,则可以使用Simple HTML DOM Parser来获取

java-如何在html / text内容中获取文本？

大家好我有html / text之类的东西： <html><head><style type="text/css"> </style></head> <body><div style="font-family:times new roman,new york,times,serif;font-size:14pt">first text<br><div>&

java-Jsoup仅选择最里面的div

有没有办法在Jsoup中仅选择最里面的div(即不包含其他div的div)？澄清一下：我仅指div.也就是说,如果div包含不是div的元素,但不包含任何div,则就我而言,它被视为“最里面的div”.解决方法:Jsoup与CSS选择器一起使用.但是,使用CSS选择器无法实现所需的功能.因此,这毫无疑问.您需要循环

java-Jsoup：“仅选择text()等于的链接”

cul与等于某些预定义字符串的text()链接的一种方法很简单： Elements links = document.getElementsByTag("a"); for (Element link : links) { if (link.text().equals("So & so") || link.text().equals("such & such") { // ad

CodeGo.net>如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容.该页面有一部分正在使用ajax填充.当我在页面源代码中查看时,它没有显示使用Ajax加载的内容.该部分的内容将根据选中的复选框而变化.如果我们选中“印度”复选框,则该部分将显示印度的所有详细信息.页面源将仅显示默认内容,而不显示使用ajax显示的