Web风行者的设计方案与计划

阅读: 评论:0

Web风行者的设计方案与计划

Web风行者的设计方案与计划

去年(2005年)花了数月的时间写了一个Web Spider。主要集中于功能实现,线程模型,任务自动化,数据攫取方面。在两个月的运行测试中,改正了不少的bug。当时给这个程序起的名字叫"龙龙"(俺是兽族的嘛).龙龙的缺点是完全定制性的控制台程序,对不同的网页必须进行硬编码解析。于是想开发"龙龙2.0",加入规则系统和UI界面。前一阵比较忙,就停下了"龙龙"的开发。现在开始接续龙龙2.0,并为龙龙2.0起一个正式的名字:“Web风行者”。

“Web风行者”目标是开发一个易用的,可配置规则,可调试规则的html Web数据挖掘系统。规则部分原则上采用XQuery/XPath/XSLT近似的语法,但可能扩展这些语法,使其能够在更细粒度,能够集成文本挖掘,甚至在语义层面进行挖掘。

“Web风行者”主要考虑易用性和实用性。先将网页解析成XHtml格式,在根据规则从XHtml文件中解析出数据,进行持久化。其结构图初步设想如下:


Web风行者不开源,计划开发免费版,商用版和Web服务版三种版本。推出时间不定。反正本兽一直不闲着,一有时间就开发。

注:本来想用C#写的,但是这边没找到可用的开源XQuery实现。

转载于:.html

本文发布于:2024-02-02 10:39:41,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170684158043256.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:设计方案   计划   风行者   Web
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23