论文部分内容阅读
对等网络(Peer-to-Peer,简称P2P)具有数据分布式存储、节点平等、节点间直接通信等特点,被广泛应用到信息检索、文件共享等领域。随着网络规模越来越大,网络极易产生瓶颈现象和节点失效的问题。为了解决这些问题,人们尝试对超节点对等网络信息检索技术展开研究。但相关研究成果还存在一些不足,仍有许多关键问题亟待解决。例如:如何按照语义相近的原则构建超节点对等网络,以进一步提高搜索效率和检索结果质量;如何设计节点常数度数的超节点拓扑结构,以进一步降低网络维护代价;如何设计失效节点、链路故障的发现和恢复机制,以提高网络的容错性;如何建立分布式查询机制,以减少超节点的负载、提高检索结果质量和下载质量等。这些关键问题的解决,将有利于满足用户对信息检索的需求,为用户提供更加便捷的信息检索平台。因此,对超节点对等网络的信息检索展开研究,有着重要的理论研究意义和实际应用价值。本文以提高搜索效率、检索结果质量和下载质量,降低网络维护代价,增强网络容错性为目标,围绕上述关键问题展开研究。在此基础上利用所得的研究成果设计和实现了一个原型系统。本文主要研究内容及贡献包括以下几个方面:(1)在超节点对等网络的构建方面,本文针对早期的超节点对等网络信息检索中,存在普通节点与超节点连接缺乏语义相关性,搜索效率和检索质量不高,缺乏超节点负载平衡等问题,提出了一种基于在线聚类的超节点对等网络构建方法。主要工作包括:①改进了已有在线聚类算法,以适应高动态的对等网络。该算法保证了普通节点按照语义相关性连接超节点,较好地解决了资源准确定位的问题。②提出了一种超节点选择和动态调整超节点选择策略。该策略能根据超节点自身的负载能力,动态调整连接普通节点的数量,使超节点的选择更加简单,减少了超节点因负载过重而出现网络瓶颈的可能性。③提出一种搜索路由优化机制,使检索尽可能在某个语义组内完成,减少了查询请求转发次数,进一步减少了查询带宽消耗、提高了搜索效率和检索结果。(2)在节点共享文档组织方面,为了克服已有共享文档组织方法不利于构建语义覆盖网络的问题,提出一种基于层次聚类树的超节点对等网络。主要工作包括:①改进了传统层次聚类算法,以适应多文档集聚类。采用该算法将节点共享文档集聚类,根据簇之间的语义范畴形成层次聚类树,克服了传统单层次聚类很难揭示文档之间语义关系的不足。②在层次聚类树的构建过程中,利用曲线多项式拟合技术,设计一种自动发现并设置阈值的方法。这种方法使聚类过程更加智能化和自动化,聚类结果更加准确。③提出了基于层次聚类树的超节点对等网络构建方法。利用该方法,普通结点能根据网络中已有语义组的语义范畴,选择不同层次的簇与超节点建立连接,提高了搜索效率、减少了查询带宽消耗。(3)在超节点拓扑结构方面,针对已有超节点对等网络中超节点拓扑结构复杂、无序,难维护、不便于搜索路由等问题,提出了两类常数度数的超节点拓扑结构模型。主要工作包括:①在分析完美差异图(PDG)结构的基础上,提出一种新的k-PDG拓扑结构,并利用该结构组织超节点,建立了一种新的超节点对等网络。②提出一种新的k-皮特森图拓扑结构。采用改进的皮特森图,将网络中超节点按照k-皮特森图拓扑结构进行组织,建立了一种新的超节点对等网络。性能分析和模拟结果表明:这两类结构与现有超节点拓扑结构相比,除具有支持多关键词查询、减少搜索所产生的查询消息量外,在动态适应性方面,新超节点对等网络能更好地降低超节点失效对拓扑产生的影响;在性能上,该网络具有更小的拓扑构造和失效修复成本。(4)在分布式查询方面,针对现有超节点对等网络中超节点负担重,查询结果缺乏统一排序、包含重复结果的下载节点可能无效等问题,提出一种低负载和高质量的分布式查询处理机制。主要工作包括:①提出一种分布式查询处理机制,减少了超节点的查询负载。②提出一种基于近似全局信息的分布式排序方法,实现对查询结果进行统一排序。③提出一种下载节点选择机制,提高了下载请求的成功率、减少响应时间和网络通信消耗。(5)原型系统的设计和实现。将本文研究成果,如节点共享文档组织方法、超节点构建算法、超节点拓扑结构、分布式查询处理等关键技术加入到系统中,设计与实现了一个原型系统。