基于ProActive的分布式并行Web Spider研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:yurui4010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎面对不断爆炸性增长的互联网信息,为了保证搜索的全面性和页面的有效性,就要求有更短的更新周期,于是对Web Spider的采集效率提出了更高的要求。单机的Web Spider的采集效率明显不能满足搜索引擎的更新需求。目前的分布式并行Web Spider大都用C、C++、Fortran编写的PVM或MPI程序,或者直接用java开发,然而PVM或MPI程序,具有可移植性差,不便于扩展,配置复杂等缺点,直接用java开发,为了实现把本地对象转化成可用的远程对象,要求编程人员对库中现有代码做较大修改,这给编程人员增加了很大的负担,开发代价过高。URL去重算法对重复率高的URL集合去重效率不高。带有中心节点的整体架构不够合理,中心节点容易形成系统性能瓶颈,影响了系统的可扩展性。 针对Web Spider设计开发代价过高的不足,我们提出了一种利用ProActive网格网络并行分布计算中间件开发分布式Web Spider的新技术,并且用此技术设计开发了一个分布式并行Web Spider系统。实验证明利用此项技术,使得系统采集效率提高,部署配置变得更加灵活方便,开发代价大幅降低。然后,我们针对在Web Spider采集的高重复率URL集合上,目前系统中普遍采用的URL去重算法去重效率不高的不足做了改进,设计了基于Rabin算法的URL去重算法。通过理论分析和对比实验证明该去重算法在高重复率的URL集合上有更高的去重效率,有效提高了Web Spider的URL去重检索速度。最后,应用该改进的URL去重算法对Web Spider的系统架构做了改进,去除了系统的中心节点,设计开发了节点对等结构的分布式并行Web Spider。实验表明该系统架构减少了节点间的通讯量,平衡了各节点的工作负载,解决了系统的中心节点瓶颈问题,提高采集效率,改善了系统的可扩展性。本文的工作为设计开发高性能的Web Spider提供了新方法,新思路,也是ProActive中间件的一个新的应用,有一定的理论价值和较高的实用价值。
其他文献
随着我国专利法的逐步完善,企业单位对外观设计专利的激烈竞争以及人们对生活质量要求的提高,墙纸类图像的类型和数量以惊人的速度递增。面对数量巨大的墙纸类花纹图像,实现其高
传统的计算机网络安全解决方案主要指防火墙和入侵检测系统,这些方法都有其自身不足之处,入侵防御技术作为防护计算机网络免遭入侵破坏的一种有效手段在网络安全领域日益受到
作为类UNIX操作系统,Linux操作系统除了保持UNIX稳定、高效等优势之外,系统自身的功能更是不断发展,日益成熟。相对于其他操作系统而言,Linux可以按照需要修改源代码,并且具
自从PC时代以来,流式办公文档得到了广泛应用。但由于格式繁多,不同文档格式间的互操作问题日益突出。另外,在基于流式办公文档的应用开发中,人们只能使用各文档格式对应的API。
在工业、社会、经济等众多领域中,人们面临着大量的最优化问题。用模拟生物界自然现象而发展起来的群智能优化算法来解决此类问题已被越来越多研究者所关注。PSO(Particle Sw
随着嵌入式系统在家电、娱乐、通讯等领域的不断发展和硬件水平的不断提高,嵌入式系统必须具备中文人机交互界面功能。目前,X-Window已成为Linux标准的图形操作环境。XIM协议
微电子技术和虚拟技术的不断进步,促进了虚拟仪器的广泛应用。虚拟仪器逐步成为仪器的发展方向。但是,与虚拟仪器的飞速发展相比,虚拟仪器的评测方面的研究明显滞后。在传统
随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,无线传感器网络这种由传感器、微处理器和无线通信接口组成的,集数据采集、融合处理和通信为一体的网络,在国防
XML已经成为网络上数据描述和数据交换的标准;在数据存储领域,XML也发挥着重要的作用。因此,对XML数据的查询的需求也越来越广泛。W3C组织在满足XML查询需求的基础上,针对XML
社会网络分析最早起源于社会学研究,早期的社会网络分析研究对象主要是社会中真实的人以及人与人之间的关系。随着社会网络分析的发展,网络中的社会行动者有了更为宽泛的定义