论文部分内容阅读
P2P技术和搜索引擎相关技术是当前科研院所、公司争相研究的热点。P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,与传统的分布式系统相比,P2P技术具有无可比拟的优势,它的网络拓扑结构适合于分布式信息检索处理。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。由于国内互联网发展迅速,中文用户数量激增,人们在计算机对自然语言理解的研究也取得了较大的进展,从而推动了搜索引擎向中文搜索引擎的发展。目前,许多搜索引擎从体系结构上看是集中式的,即从Internet上取回页面,经过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及时响应,也会造成网络堵塞。集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度地搜索。因此,人们便提出了构建分布式搜索引擎的策略。 本文先对P2P技术及背景作了概述,从P2P网络模型、P2P搜索技术等几个方面对P2P技术作了介绍;然后对搜索引擎进行了简要介绍,并叙述了搜索引擎系统组成与原理、搜索引擎分类、搜索引擎性能指标、搜索引擎的发展方向、分布式搜索引擎,对比、分析了搜索引擎的信息检索模型。为了克服传统的集中式搜索引擎的缺点,本文将搜索引擎结合P2P技术,提出了基于P2P的分布式中文搜索引擎。基于P2P的分布式中文搜索引擎采用NetShot路由算法作为系统的路由算法;针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。 基于P2P的分布式中文搜索引擎是将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。 基于P2P的分布式中文搜索引擎是搜索引擎发展的一个趋势,成为人们研究、开发的领域。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。