基于P2P的分布式中文搜索引擎的应用研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:samuraitruong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P技术和搜索引擎相关技术是当前科研院所、公司争相研究的热点。P2P的分布式网络结构具有可扩展性、健壮性、负载均衡等特点,与传统的分布式系统相比,P2P技术具有无可比拟的优势,它的网络拓扑结构适合于分布式信息检索处理。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。由于国内互联网发展迅速,中文用户数量激增,人们在计算机对自然语言理解的研究也取得了较大的进展,从而推动了搜索引擎向中文搜索引擎的发展。目前,许多搜索引擎从体系结构上看是集中式的,即从Internet上取回页面,经过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及时响应,也会造成网络堵塞。集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度地搜索。因此,人们便提出了构建分布式搜索引擎的策略。 本文先对P2P技术及背景作了概述,从P2P网络模型、P2P搜索技术等几个方面对P2P技术作了介绍;然后对搜索引擎进行了简要介绍,并叙述了搜索引擎系统组成与原理、搜索引擎分类、搜索引擎性能指标、搜索引擎的发展方向、分布式搜索引擎,对比、分析了搜索引擎的信息检索模型。为了克服传统的集中式搜索引擎的缺点,本文将搜索引擎结合P2P技术,提出了基于P2P的分布式中文搜索引擎。基于P2P的分布式中文搜索引擎采用NetShot路由算法作为系统的路由算法;针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。 基于P2P的分布式中文搜索引擎是将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。 基于P2P的分布式中文搜索引擎是搜索引擎发展的一个趋势,成为人们研究、开发的领域。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。
其他文献
随着数字图像处理技术的快速发展和Internet的普及,数字图像的应用愈加广泛,对图像进行有效管理和查询的需求也越来越迫切。基于内容的图像检索(content-based image retriev
探究式学习是一种强调学生自主积极投身其中的学习方式,主要有自主探究、合作探究和启发探究等模式。国际上对探究式学习对人才的成长和发展所产生的重要影响已经产生了共识,我
CISC结构的微处理器指令功能复杂,指令长度、格式不定。设计高效合理的译码器是加快指令译码速度,提高指令流水效率,进而有效提高处理器性能的重要保证。 本论文来源于西北工
支持向量机作为一种基于统计学习理论的新型学习算法,能很好的解决有限样本情况下的学习问题。这种方法从理论上控制了机器学习的复杂性,同时具有良好的收敛速度和推广能力。它
在企业的信息化建设过程中,企业组织中的各个部门或者地区分公司根据自身情况,构建了不同的信息系统来维护与自己工作相关的数据,这样企业的整个信息资产就被分裂成通常所说
随着互联网技术的发展,人们获取新闻的方式也在发生显著地变化,从传统的报纸、杂志向新闻聚合网站发展,如国内的网易新闻、新浪新闻,国外的谷歌新闻、雅虎新闻等。人们从信息
近年来,作为数据库领域和信息检索领域的前沿课题之一,对Top-N查询的研究得到了蓬勃发展,研究重点主要是查询处理策略和排序函数。以关系数据库为基础的Top-N查询能够检索出与关
近几年来,对于QOS-aware的应用程序的需求越来越多,尤其是在SOC(Service Oriented Computing)环境下。这些应用程序由一些QoS-aware的组件动态组合而成,这些组件常常会注册它们
VPN(Virtual Private Network,虚拟专用网)能够让企业为移动用户、分支机构以及合作伙伴提供安全方便访问企业内部资源。现在市场上主要有两种形式的VPN系统:IPSec VPN和SSL VP