Nutch爬虫实验运行及抓取数据分析(一)

阅读: 评论:0

Nutch爬虫实验运行及抓取数据分析(一)

Nutch爬虫实验运行及抓取数据分析(一)

为了更深入地对Nutch爬虫进行了解,我们需要运行一个实际的抓取过程并对这个过程中的细节进行记录,对抓取生成的结果文件进行内容分析。首先你需要下载Nutch程序并搭建起可以令其运行的平台,这在网上都有详细的说明资料,我就不赘述了。我们需要做的第一步就是建立起一个实验用的Web站点,这个站点只包含了四个网页。图1描述了这四个网页之间的链接关系,并且C网页和C-dup网页的网页内容是相同的。

 

图1 实验站点结构图

 

我们首先需要设置种子URL,我们设置A网页为爬虫起始抓取网页。命令如下:

 

另外我们需要限制Crawler只抓取这个实验站点的网页,Nutch爬虫使用一个Filter来识别URL是否需要抓取。我们可以通过对文件的修改来实现这个Filter,将文件中的

 

内容修改为

 

接下来,我们执行下面的命令行来运行Crawler:

 

在这个爬行命令中,我们设置抓取结果存储于crawl-tinysite文件夹中,抓取日志为crawl.log,另外限定了抓取深度为3,也就是告诉Crawler需要执行3次“产生/抓取/更新”循环就可以抓取完毕了。由于实验站点的简陋,深度为3就可以了,但是在实际运行时需要根据实际情况来进行设置。

 

下面就让我们通过对抓取产生文件的内容分析来进一步的了解Crawler的工作吧。 首先我们来看一下抓取过程中产生的所有文件有哪些,打开crawl-tinysite文件夹,里面有三个子目录,详细如图2所示: 图2 爬虫运行完毕所生成文件

 

Nutch自身带了很多查看结果文件的工具,我们利用它们来进行文件内容展示。

 

WebDB

 

首先我们需要看一下WebDB中的网页数目和链接数目,以确定站点爬行情况,执行下面的命令行:

 

结果为:

 

正如所料,其中包括四个网页(A,B,C,C-dup)和四个链接。因为WebDB只能去除重复URL,所以其中仍然含有C-dup网页,但是A网页却并没有被抓取两次。接下来,看一下WebDB中的网页实体和链接实体的具体存储内容,执行命令:

 

生成结果:

 

可以看出每一块内容是一个网页实体的信息,ID代表的是网页内容的MD5摘要,所以网页C和网页C-dup拥有一样的ID,另外还有其它的信息例如重新抓取预定时间和网页评分等。下面看看链接,执行命令:

 

生成结果:

 

当抓取网页过多时,查看命令还可以通过URL或者MD5 hash单独查看单个网页实体,例如命令:

 

结果:

 

看以看出得到的是单个的网页A。

 

未完待续,请继续关注Nutch爬虫实验运行及抓取数据分析(二)》

 

备注 参考文章:.html 本文章为原创,如要转载请务必注明本文章出处。

本文发布于:2024-01-31 21:41:07,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170670846831541.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:爬虫   数据   Nutch
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23