编程语言
首页 > 编程语言> > C#使用HtmlAgilityPack快速爬虫

C#使用HtmlAgilityPack快速爬虫

作者:互联网

HtmlAgilityPack真是一把网抓利器,可以迅速地从网页抓到想要的文本或数据,使用起来十分方便,引用时在NuGet安装添加并在头部引用using HtmlAgilityPack;即可。

HtmlWeb webc = new HtmlWeb();
HtmlDocument htmlDoc = webc.Load(@"https://doc。。。");
HtmlNodeCollection hc = htmlDoc.DocumentNode.SelectNodes("//td[contains(normalize-space(text()),'Investment Advisor:')]/../../../../preceding-sibling::div[position()<=3]");

抓出来之后就可以对hc循环取innertext属性得到结果,不过HtmlAgilityPack的selectnode(s)方法只支持xpath,不支持jsoup,所以要准确地抓出想要的东西就得看xpath写得好不好了,这里推荐下使用xpath常用的两个网址:

https://www.cnblogs.com/VseYoung/p/8686383.html

http://www.w3school.com.cn/xpath/xpath_functions.asp

 

标签:xpath,htmlDoc,www,..,webc,C#,HtmlAgilityPack,爬虫
来源: https://www.cnblogs.com/JTCLASSROOM/p/10969673.html