基于主题分组的P2P搜索研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:nm680nm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的日益普及,人们的信息资源变得丰富起来,如何在众多的资源中快速、准确的定位到合适的信息,是一个十分棘手、也是必须解决的问题。Web搜索引擎在很大程度上缓解了该问题,提高了人们搜索信息的能力,但是它仍然存在不少问题。由于P2P所具有的性质,解决Web搜索引擎现存的问题相对容易一些,故不少研究者把目光投向了P2P的解决方案。本文对P2P搜索系统进行了较为深入的研究,在此基础之上,针对非结构化P2P搜索系统存在的一些缺陷,提出了“基于主题分组的P2P搜索”方案。 本文将方案的实现分解为5个问题,提出了三个相应的算法,并通过试验验证了各个算法在解决相应问题时的有效性。这三个算法分别为: 1.TKC算法。该算法借鉴了文本分类技术的思想,它使得P2P环境中的节点能够准确地表达节点自身的主题,并且能够确定节点自身与其它节点的主题关系,即两个节点是否属于同一主题;本文通过三组实验,验证了该算法在不同环境下,都能够较准确地通过文档集合间的TKC相似度来判断文档集合之间的主题关系; 2.TBR算法。本文定义了环状结构、且与主题相关联的TBR拓扑结构,并在该拓扑结构上实现了节点自动分组的TBR算法,该算法能够有效地维护系统中形成的多个主题组,使它们依据主题关系分布在TBR拓扑结构中;本文通过实验,在“算法完整性”等方面验证了算法的性能,实验结果证明,在阀值适当的情况下,算法能够较好地解决“节点分组”和“管理主题组”两个问题; 3.TBS搜索算法。在TBR拓扑结构基础上,TBS将搜索分为“组内搜索”和“组间搜索”,通过组内搜索减少Flooding搜索算法的“泛洪”空间,通过组间搜索将搜索请求准确的发送到适当的主题组;在P2PSim平台上的仿真实验证明,本文提出的TBS算法较为有效地减少了系统的垃圾消息、提高了搜索效率。 本文在实现了上述三个算法的基础上,还设计了“基于主题分组的P2P搜索”方案的系统原型,并在通过对开源项目JXTAShell的学习,对其进行了二次开发,实现了该原型系统、以及节点加入系统、创建主题组、搜索等基本的系统操作,基本实现了“基于主题分组的P2P搜索”。
其他文献
多核并行计算已经成为当今计算机新的领域,而多核之间如何进行通信也已经成为了当今研究的重点内容,尤其是嵌入式系统中在多处理器之间选择合适的通信机制不仅能够提高并行化的
串匹配算法是计算机科学领域中一个重要的基础研究领域。在文本处理、数据压缩、搜索引擎、生物计算,以及网络安全等大量的应用中,都需要进行串匹配。本文主要讨论精确模式串
信息时代的到来带来了大数据时代的契机,同时也带来了信息的爆炸式增长。多元化的知识信息给人们提供便利的同时,也带来有效获取真正感兴趣知识的困难,由此知识的个性化服务
秘密共享是门限密码学的基础。门限秘密共享的主要思想是将一个秘密分割成若干子秘密分散存储于多个成员,当需要重构秘密或使用它进行某种密码运算时,必须多于特定数量(门限
目前嵌入式系统已经广泛应用在航天、航空、工业机器人、系统控制等领域,然而,海量数据处理对嵌入式计算系统提出了更高的要求。为了开发更高性能的嵌入式系统,并行计算成为提高
当今数字化时代,对于企业的运作发展,信息技术扮演着越来越重要的角色,软件系统的破坏和数据资料的损毁将对企业造成难以估量的损失。而很多灾难事件又无法预计和避免,如雪灾、恐
随着无线通信技术和多媒体技术的飞速发展和日益成熟,无线分布式环境下视频应用的需求变得日益迫切。具有高复杂度编码器的传统混合编码技术已经不再适用于这种应用环境,迫切
密文数据库检索方法是数据库加密技术研究的难点和重点。目前,对密文数据库检索方法的研究还处于起步阶段,各方面的技术还不成熟,存在一定的缺陷。本文对密文数据库检索方法
随着互联网技术的高速发展,人们所面临的数据几乎呈爆炸性的增长,而传统的数据挖掘算法在处理大数据时已不能满足人们对时间性能的要求,那么如何能快速的从大量数据中提取有
潜在语义索引模型(Latent Semantic Indexing, LSI)是经过实验验证的文本分类技术中行之有效的维数约简算法之一。潜在语义索引模型对原始特征空间降维的过程是一个在降维的