首页 > TAG信息列表 > html-agility-pack

c#-HTML Agility Pack使用情况

如何使用HTML Agility Pack选择所有html标签并将其放在列表中,以便可以在网页中查看所有可用标签. 谢谢, 吉普解决方法: HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode node in doc.DocumentNode.SelectNodes("//*"){ ///..... do s

在C#中解析HTML部分

我需要从HTML字符串中解析部分.例如: <p>Lorem ipsum dolor sit amet, consectetur adipiscing elit.</p> <p>[section=quote]</p> <p>Mauris at turpis nec dolor bibendum sollicitudin ac quis neque.</p> <p>[/section]</p> 解析报价部分应返

HtmlAgilityPack HtmlDocument.Load引发异常“对象未设置为实例”

var uri = new Uri("http://store.scrapbook.com/cos-pad825.html?t12-13=cosmo%20cricket&date=20110309"); var request = (HttpWebRequest)WebRequest.Create(url); var cookieContainer = new CookieContainer(); request.CookieContainer = cookieContain

c#-使用HTML Agility Pack删除重复元素链

我正在尝试删除任何< br>我的html文档中的标签.到目前为止,这是我想出的(真正愚蠢的代码): HtmlNodeCollection elements = nodeCollection.ElementAt(0) .SelectNodes("//br"); if (elements != null) { foreach (HtmlNode element in elements

使用带有Javascript的Xpath解析HTML

在.NET中,有一个可爱的库,它使我可以使用xpath查询(HTML Agility Project)轻松解析外部html页面-问题是我必须在客户端执行此操作,因此只能使用javascript.有什么办法吗?解决方法:jQuery还支持xPath选择器以及CSS,您可以从下面的链接中获取更多信息. http://docs.jquery.com/DOM/Tra

HtmlAgilityPack能够在其XPATH选择器中使用正则表达式吗?

我希望能够创建一个节点集合,其中文本以单词开头,然后以数字开头.例如,给出以下内容: <p>FINDTHIS 1</p> <p>FINDTHIS SOMETEXT</p> <p>FINDTHIS 2</p> 我希望能够创建一个由两个段落节点组成的集合:FINDTHIS 1和FINDTHIS 2. 一种可能的方法是创建一个/// p [starts-with(.,’FINDT

c#-XPath表达式在HtmlAgilityPack中不起作用

我知道这可能是我对XPath的不了解,但请允许我确认一下,因为我已经在Google上进行了足够的搜索. 我有一个网站,希望从中获得新闻标题:www.farsnews.com(波斯语) 在firefox下使用FireBug和FireXpath扩展,并手动提取和测试与标题匹配的多个Xpath表达式,例如: * html/body/div[2]/div[2]

HTML解析C#

我正在解析HTML文件,并且遇到了一些问题. 我正在使用以下代码: 编辑******************************** 更新的代码现在可以使用了. 私有void PhoneApplicationPage_Loaded(对象发送者,RoutedEventArgs e)         { WebClient client = new WebClient(); client.Do

c#-使用HTML Agility Pack和xpath将“ iso-8859-1”转换为“ utf-8”

我正在尝试获取一个网页,但是特殊字符有问题.如何转换数据以获得正确的读数?该网站使用ISO 8859-1,我必须使用UTF 8. string url = "http://www.ta-meteo.fr/troyes.htm"; HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(url); HtmlNode bull

C#-SelectSingleNode为小写

我一直在查看SO,发现许多可能是同一类型问题的Q& A,但我无法让我工作,我做错了什么. 当我提取某个< meta标签时,我会以这种方式进行操作 HtmlNode clnode = htmlDoc.DocumentNode.SelectSingleNode("//meta[@http-equiv='content-type']"); 这项工作很好,只是无法匹配 <meta h

c#-使用HTML Agility Pack从HTML字符串中的“样式”属性中删除特定样式

我有一串HTML,其中包含各种HTML,但其中包含 <span style="display:block;position:fixed;width:100%;height:2000px;background-color:rgba(0,0,0,0);z-index:9999!important;top:0;left:0;cursor:default;"></span> 这看起来很奇怪,但是我只想删除style属性中的特定项(对于所有H

在C#中使用HttpClient提交表单

我正在通过htmlagilitypack获取网站表单,设置表单变量并尝试提交表单.看起来一切正常,但是表单提交的响应为空. static void Main(string[] args) { string urlAddress = "mywebsite"; HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(ur

c#-使用XPath(和HtmlAgilityPack)从HTML表中选择所有链接

我要实现的目的是提取带有以http://,https://或/开头的href属性的所有链接.这些链接位于具有特定类的表(tbody> tr> td等)内.我以为我可以只指定a元素,而不需要完整的路径,但它似乎不起作用.我在选择链接的那一行得到了NullReferenceException: var table = doc.DocumentNode.SelectS

CodeGo.net>使用HTMLAgility包提取链接

考虑以下最简单的代码: using System; using System.Collections.Generic; using System.Linq; using System.Text; using HtmlAgilityPack; namespace WebScraper { class Program { static void Main(string[] args) { HtmlDocument do

C#使用HTML Agility Pack解析隐藏字段

我需要为一个可解析隐藏字段的朋友站点编写一个应用程序.我已经下载了Html Agility Pack库,但是有点困惑,因为实际上没有任何示例. HTML字段如下所示: <input type = "hidden" autocomplete="off" value="randomvalue" name="foo"> 我将如何从该领域获得价值?解决方法:从内存中,类

c# – 在HtmlAgilityPack中运行脚本

我正在尝试抓一个如下工作的特定网页. 首先加载页面,然后它运行某种javascript来获取填充页面所需的数据.我对这些数据很感兴趣. 如果我使用HtmlAgilityPack获取页面 – 脚本没有运行,所以我得到它本质上是一个空白页面. 有没有办法强制它运行脚本,所以我可以获取数据?解决方法:您将

c# – 如何使用htmlagilitypack为此示例从HTML中提取文本?

我想从HTML源中提取文本.我正在尝试使用c#和htmlagilitypack dll. 来源是: <table> <tr> <td class="title"> <a onclick="func1">Here 2</a> </td> <td class="arrow"> <img src="s

使用HtmlAgilityPack解析C#中的网页信息

我正在尝试使用HtmlAgilityPack来解析网页信息.这是我的代码: using System; using HtmlAgilityPack; namespace htmparsing { class MainClass { public static void Main (string[] args) { string url = "https://bugs.eclipse.org";

c# – 使用HTMLAgilityPack仅提取页面文本

好的,我对HTMLAgilityPack中使用的XPath查询真的很陌生. 所以让我们考虑一下这个页面http://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you.我想要的只是提取页面内容而不是其他内容. 所以我首先删除脚本和样式标签. Document = new HtmlDocume

c# – 如何用HtmlAgilityPack解析标签的InnerText?

语境: 我试图从Page here解析“城市”.我已经设法模拟这个组合框的数据请求,这是一个Ajax调用. 小提琴请求: POST http://www.telelistas.net/AjaxHandler.ashx HTTP/1.1 Host: www.telelistas.net Connection: keep-alive Content-Length: 106 Origin: http://www.telelistas.net X

C#html敏捷包按类名获取元素

我试图得到他们的类包含某个单词的所有div: <div class="hello mike">content1</div> <div class="hello jeff>content2</div> <div class="john">content3</div> 我需要得到他们的类包含单词“hello”的所有div. 像这样的东西: resultContent.Documen

c# – Html Agility Pack – 删除元素,但不删除innerHtml

我可以通过note.Remove()来轻松删除元素: HtmlDocument html = new HtmlDocument(); html.Load(Server.MapPath(@"~\Site\themes\default\index.cshtml")); foreach (var item in html.DocumentNode.SelectNodes("//removeMe")) { item.Remove(); } 但这也删除

c# – HtmlAgilityPack MixedCodeDocument的用途是什么?

我正在使用HtmlAgilityPack的1.4版本,据我所知,MixedCodeDocument和相关的类可以帮助你解析asp.net和ascx文件中的asp.net标记.我发现了MixedCodeDocument类的零文档或示例.从我的尝试来看,似乎MixedCodeDocument将文件的文本分成几个分隔asp.net片段和nonasp.net片段的块.例如,以

c# – HTML敏捷包QuerySelector返回null

我正在使用Fizzler for Html Agility Pack.这是我的选择器,当我在firebug中测试时,它可以正常工作: $('table.adsh>tbody:nth-child(1)>tr:nth-child(4) table tr:nth-child(1)>td:nth-child(2)') 但是这行代码在C#代码中返回null: var item = page.QuerySelector("table.adsh>tbo

c# – 确定主要文章图像 – HTML Agility Pack

我想使用HTML Agility Pack来确定主文章正文,然后从中提取主文章图像. 我注意到大多数站点网站管理员都有他们的主要内容容器包含H1标签,但这不是每次的规则,所以我不能将我的假设作为基础. 下面的2个印刷品来自这两个地点. http://www.24matins.fr/the-walking-dead-saison-4-le-d