.Net解析html文档类库HtmlAgilityPack-C#/.net框架-少有人走的路

在前几篇文章中（[搜房网房产数据采集程序demo--GeckoWebBrowser实例] ）都有提到一个解析html的C#类库HtmlAgilityPack，

今天终于有时间整理一下，并把Demo分享一下。

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解析html文档（在B/S结构的程序中客户端可以用Javascript、jquery解析html）。截止到本文发表时，HtmlAgilityPack的最新版本为 1.4.6。下载地址：http://htmlagilitypack.codeplex.com/。最新版本支持Linq to Objects ( LINQ to Xml ).

准备:

如果你有安装Nuget的话，可以直接查找安装即可。

下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll（程序集）、HtmlAgilityPack.xml（文档，用于Visual Studio 2008中代码智能提示和帮助说明之用）引入解决方案中即可使用，无需安装任何东西，非常好用。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中，几乎都是以HtmlDocument类为主线的，这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档，而HtmlDocument类操作的是html文档（其实也可以操作xml文档），它们的操作方式都是基于Dom，所不同的是后者取消了诸如GetElementsByTagName这样的方法，强化了GetElementById方法（在HtmlDocument中可以直接使用，而XmlDocument则不可以）。

HtmlAgilityPack中定位节点基本上都用Xpath表达式，Xpath表达式的参考文档可见：http://www.w3school.com.cn/xpath/xpath_syntax.asp。自行学习。

不过可以先用几个简单就可以。比如，我们用到最多可能就是针对某个元素（div）、或者某个class属性的div、或者某个id的div，或者以什么开头的div，

类似这样的Xpath还是比较简单的。

Xpath举几个例子，下面的代码中我们就会用到：

"//comment()"在XPath中表示“所有注释节点”
1、获取网页title：doc.DocumentNode.SelectSingleNode("//title").InnerText;  解释：XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。
2、获取所有的超链接：doc.DocumentNode.Descendants("a")
3、获取name为kw的input，也就是相当于getElementsByName()：             var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");
解释："//input[@name='kw']"也是XPath的语法，表示：name属性等于kw的input标签。
//li/h3/a[@href]：所有li下面的h3包含a超级链接有href属性才符合。有的a可能是支持的js事件
//div[starts-with(@class,'content_single')]：所有符合条件的div，并且它的class是由字符串content_single 开头的。

//标示获取documet下的所有符合条件。/div标示从根目录开始的符合条件的。

以上是准备工作。下面说一下HtmlAgilityPack读取web页面，并解析的方法步骤。

1.读取url：

 HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb();
                HtmlAgilityPack.HtmlDocument doccc = hw.Load(url);//是你需要解析的url
                ArrayList ImagePtahs = GetHrefs(doccc);

这里可能会遇到2个问题。

一个是编码问题，一个是gzip不支持的问题。

首先编码问题解决办法：就是不用HtmlAgilityPack去获取Url的data数据，自己获取了。大家可能就问了：我自己获取了他不给我解析那？

没事，他不会那么笨的。谁的肉不是吃啊？

方法如下：

WebProxy proxyObject = new WebProxy(IP, port);//这里我是用的代理。
                //向指定地址发送请求
               HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create(url);
                HttpWReq.Proxy = proxyObject;
                HttpWReq.Timeout = 10000;
                HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse();               
                StreamReader sr = new StreamReader(HttpWResp.GetResponseStream(), System.Text.Encoding.GetEncoding("UTF-8"));              
                //注意上面的编码了吗？？
                HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
                doc.Load(sr);
                int res = CheckIsGoodProxy(doc); //这是我解析的函数，还没到那一步。不解释了。
                sr.Close();
                HttpWResp.Close();
                HttpWReq.Abort();

另一个问题就是很奇怪了。gzip的问题开启了gzip压缩的网页请求时会报错。报错信息为“gzip”不是受支持的编码名。

在谷歌上搜索了半天，终于找到解决方案，而且不必更换HttpRequest或WebClient进行请求。同时还可以用此方法设置cookie，render伪装等等。。。
解决后代码如下：在你发起请求的是修改一下。

HtmlWeb webClient = new HtmlWeb();
HtmlAgilityPack.HtmlWeb.PreRequestHandler handler = delegate(HttpWebRequest request)
{
       request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate";
       request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip;
       request.CookieContainer = new System.Net.CookieContainer();
       return true;
};
webClient.PreRequest += handler;
HtmlDocument doc = webClient.Load(this.getUrl());

可能最新版本的HtmlAgilityPack会修复这个问题吧。期待中。

2.用Xpath解析。

这一步就比较简单了。就用Xpath选出你想要的数据，遍历他们，取出他们的value即可。

实例代码:

private ArrayList GetHrefs(HtmlAgilityPack.HtmlDocument _doc)
        {
            try
            {
                Images = new ArrayList();
                HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes("//li/h3/a[@href]");
                   HtmlNodeCollection hrefs2 = _doc.DocumentNode.SelectNodes("//div[starts-with(@class,'content_single')]");
                if (hrefs == null)
                    return new ArrayList();
                foreach (HtmlNode href in hrefs)
                {
                    //  Images.Add(href.Attributes["src"].Value);
                    string hreff = href.Attributes["href"].Value;// 排除  博海拾贝第二百零二期】吃完薯条寂寞了 
                    string title = href.Attributes["title"].Value;
                  if (title.IndexOf("邪恶") >= 0)
                    {
                        continue;
                    }
                    if (title.IndexOf("恶搞") >= 0)
                    {
                        continue;
                    }
                    if (title.IndexOf("雷人") >= 0)
                    {
                        continue;
                    }
                    ///执行数据保存的逻辑
                }
}
 catch (Exception ex)
            {
                ShowLogMsg("出错了："+ex.Message+ex.StackTrace);
                return new ArrayList();
            }
        }

每一个Htmlnode，你要获取他的数据用这个方法： img.Attributes["src"].Value

本文出自勇哥的网站《少有人走的路》wwww.skcircle.com，转载请注明出处！讨论可扫码加群：

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

少有人走的路

2018-07-08 09:50:21

.Net解析html文档类库HtmlAgilityPack

标签:C#相关 post提交数据 网络营销软件技术 网页操作

作者:勇哥,很想停止 | 分类:C#/.net框架 | 浏览:4634 | 评论:0

常见相机标定模式和经验的总结

visionMaster检测到这个，果然不省事啊

固定相机先拍后取料，标定后对位方式一（含原理与代码）

勇哥的视觉实验：不用标定板的简易2点标定（一）

halcon视觉缺陷检测系列（1）常用的6种方法

visionMaster检测到这个，果然不省事啊

常见相机标定模式和经验的总结

固定相机先拍后取料，标定后对位方式一（含原理与代码）

C# netMarketing类库编写视觉+运动测试框架(三) 封装运动功能

勇哥的视觉实验：不用标定板的简易2点标定（一）

nx mcd运行时行为（1）：功能介绍

trae.cn的版本控制（1）

game4automation教程（三十五）一个完整的测试设备

勇哥对于大型设备项目做nx mcd仿真时的一些经验分享

工业相机常见问题的解答

visionMaster检测到这个，果然不省事啊

C#以字符拼接表示XML文本时要注意的问题

python创建虚拟环境的好处与操作

python的Qt框架PySide6（3）Qt Widgets Designer界面设计器和界面应用

C#开发者快速学习python（5）：if的bool判断, 变量的作用域范围, 格式字符串, 弹窗, 列表推导式, 一个点歌小程序

Powered By Z-BlogPHP 1.7.2

Copyright Your skcircle.com Rights Reserved.
鄂ICP备18008319号

站长QQ:496103864 微信:abc496103864

2018-07-08 09:50:21

.Net解析html文档类库HtmlAgilityPack

标签:C#相关post提交数据网络营销软件技术网页操作

作者:勇哥,很想停止 | 分类:C#/.net框架 | 浏览:4634 | 评论:0

Powered By Z-BlogPHP 1.7.2

标签:C#相关 post提交数据网络营销软件技术网页操作