论文部分内容阅读
搜索引擎的出现为互联网检索信息提供了极大的便利,但随着网络的进一步发展,资源更新越来越快,传统搜索引擎也显示出不足。而当前研究热门的基于P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,与传统分布式系统相比,具有无可比拟的优势,适用于构建分布式信息检索系统,能实现计算机本地信息查询检索和共享。本文在分析Chord网络的不足之后,首先提出了一种基于Chord的改进路由算法RChord。通过对Chord的路由表添加邻居结点表和结点缓存表改进路由算法。邻居结点表使路由选择接近真实物理位置,结点缓存表则优先考虑热点结点。然后,结合改进的RChord算法和无结构P2P网络Gnutella,利用Lucene的全文索引技术,本文提出一种基于P2P的两层分布式搜索引擎模型,并对模型中超级结点行为进行优化。模型中,以性能强的结点作为超级结点,其他的为普通结点。超级结点间形成Chord模型网络,主要负责定位查询到相关结点。查询时先通过结点索引定位包含关键字信息的相关超级结点,再由超级结点转发查询到与其相连接的普通结点。通过结点在本地数据索引返回结果,最终实现查询。模型中的超级结点的控制尤为重要,对此本文也提出了一个控制缓存策略,记录候选超级结点,随时替代离开的超级结点或性能变低的超级结点,保持超级结点的稳定。最后,本文实现了一个保密检查系统。应用前文提出的搜索引擎模型,本文实现了一个校园保密检查原型系统,对终端主机中保存的可能涉密信息保密检查。