当前位置：首页 > Windows程序 > 正文

基于C#.NET的高端智能化网络爬虫（二）（攻破携程网）

2024-03-31 Windows程序

本篇故事的起因是携程旅游网的一位技术经理，豪言壮举的扬言要通过他的超高智商，完美碾压爬虫开发人员，作为一个业余的爬虫开发爱好者，这样的言论我当然不能置之不理。因此就诞生了上一篇基础爬虫以及这一篇高级爬虫的开发教程。

技术分享

有人评论我上一篇的简单爬虫：代码太过简单以至于弱爆了，真是被这群有文化的孩子给雷到了！不得不猜测你是不是携程网的托儿，我还没写完你咋就知道弱爆了？看来不下点猛料你是得不到满足啊！

技术分享

今天我们就来学习高级爬虫的开发，同时我们还要利用之前的简单爬虫程序，来实现分布式爬虫的Links Master部分，以提高分布式抓取的效率。

下边的我们要讲的内容，涉及了众多开源软件。先别太紧张，越是高级的东西通常都封装的越好，只要放开心态综合运用就行了，我先假设你对下边这些工具都有过了解：

RabbitMQ：用于分布式消息传递。

Shadowsocks：用于代理加密。

PhantomJS：用于Web页面渲染。

Selenium：用于Web自动化控制。

一、什么是高级爬虫？

我们长谈到的高级爬虫，通常是说它具有浏览器的运行特征，需要第三方的类库或工具的支持，比如说以下这些常见的东东：

Webkit

WebBrowser

PhantomJS + Selenium

很多人都觉得，分布式爬虫才能算是高级的爬虫。这绝对是一种错误的理解，分布式只是我们实现爬虫架构的一种手段，而并非是用来定义它高级的因素。

技术分享

我们之所以称它们为高级爬虫组件，主要是因为他们不但可以直接抓取网页源代码，同时还能能渲染网站页面的HTML、CSS、Javascript等内容。

这样的功能，对于开发爬虫到底有什么好处呢？说起这好处那是有点谦虚了，丝毫不夸张的说：这玩意简直可以称为“爬无敌”！！！

技术分享

我猜你还是这个表情，因为它的强大机制，让我们可以直接在网站页面：执行Javascript代码、触发各类鼠标键盘事件、操纵页面Dom结构、利用XPath语法抓取数据，几乎可以做一切在浏览器上能做的事情。

技术分享

很多网站都用Ajax动态加载、翻页，比如携程网的评论数据。如果是用之前那个简单的爬虫，是很难直接抓取到所有评论数据的，我们需要去分析那漫天的Javascript代码寻找API数据接口，还要时刻提防对方增加数据陷阱或修改API接口地。

如果通过高级爬虫，就可以完全无视这些问题，无论他们如何加密Javascript代码来隐藏API接口，最终的数据都必要呈现在网站页面上的Dom结构中，不然普通用户也就没法看到了。所以我们可以完全不分析API数据接口，直接从Dom中提取数据，甚至都不需要写那复杂的正则表达式。

技术分享

二、如何开发一款高级爬虫？

现在我们就来一步一步实现这个高级爬虫，接下来就用目前潮到爆的两个组件，来完成一个有基本功能的高级爬虫，首先我们去下载开源组件：

技术分享

PhantomJS：算是一个没有UI界面的浏览器，主要用来实现页面自动化测试，我们则利用它的页面解析功能，执行网站内容的抓取。下载解压后将Bin文件夹中的phantomjs.exe文件复制到你爬虫项目下的任意文件夹，我们只需要这个。

下载地址：

技术分享

温馨提示: 本文由Jm博客推荐，转载请保留链接: https://www.jmwww.net/file/42934.html