论文部分内容阅读
随着Internet的快速发展,网络所蕴涵的信息量急剧地膨胀。现有基于Client/Server模式的搜索技术,存在着服务器单点失效、信息更新周期长、缺乏语义支持等不足,极大地限制着搜索结果在查准率和查全率两个方面的提高。如何在庞大的互联网上更有效地获得有价值的信息己成为人们日益关注的问题。P2P技术具有分布式、动态性、可扩展性的特点。P2P技术应用于搜索引擎,给搜索引擎的发展带来了新活力。
论文主要探讨一种将P2P的新理念和技术优势引入搜索引擎系统的方式,主要研究内容和解决的问题包括:
(1) 由于现有的P2P应用程序均采用从底层开发的方式,没有共同的标准,彼此间无法相互兼容。因此,设计系统时选择了SUN公司的通用开发平台——JXTA 作为网络的开发标准,在JXTA协议基础上构建了基本的P2P通信网络。
(2) P2P网络中的资源发现是一个难点。实现中采用IP多播进行防火墙内的多播搜索,采用HTTP实现穿越防火墙的搜索。同时定义了“搜索”对等组,提供组成员资格服务,并将通信流量限制在对等组范围内,避免网络通信流量不必要的扩散。
(3) 研究分析了Lucene 资源评分算法,并在此基础上提出了一套基于P2P网络的综合排序机制。此外,针对P2P网络的特点,提出了一种基于分布式哈希表(Distributed Hash Table,DHT)的缓存索引机制,能较为有效地提高P2P网络的利用效率。
(4) 定义了位于P2P网络之上的对等组管理服务、管道通信服务、消息管理服务、内容下载服务以及本地资源管理服务,设计了便于用户操作的应用界面,从而构建了一个完整的基于JXTA的资源检索平台。最后在充分研究分析的基础上对系统进行了实现。