论文部分内容阅读
Peer-to-peer(P2P)技术的一个优势便是开发出强大的搜索工具。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。就中文用户而言,提高搜索引擎的效率的关键因素是中文分词匹配效率与搜索引擎索引检索效率的提高。本文首先对P2P技术进行了阐述,包括P2P的定义、P2P模式与C/S模式的比较、P2P的特点以及P2P技术在搜索方面的应用及优势;其次对P2P搜索算法进行了分类探讨,重点研究和分析了几种P2P搜索算法,并指出它们的优缺点。对以传统索引方和倒排索引方这两种索引方式为核心的基于P2P的搜索引擎和其他几种典型的搜索引擎也进行了各方面的比较。接着,为了克服传统的集中式搜索引擎的缺点,针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。