论文部分内容阅读
随着互联网的迅猛发展,网络信息的增加,用户要在海量的数据信息里查找所需信息,如果没有强有力的信息检索和分析工具几乎是不可能的。当前使用比较普遍的检索系统能部分的解决资源发现的问题,但随着网络数据量急剧膨胀,传统的集中式信息检索方法在搜索性能上已经无法满足用户的要求。当信息的检索规模达到一定的程度时,必然要采用分布式的方法,以提高系统性能。分布式数据检索技术的提出对信息检索领域具有极其重大的意义。与传统的信息检索技术相比,使用分布式数据检索技术的检索系统在检索效率上有了大幅的提高。而如何进一步在分布式数据检索技术的基础上提高其检索效率,是一个值得研究的课题。最优搜索理论是二战时期发展起来的学科,是计算统筹学的分支,它研究在有限的资源约束条件下,如何分配资源使得成功搜索到目标的可能性最大或者资源的消耗最小。利用最优搜索理论对分布式数据检索进行优化,将提高系统的检索质量。本文在研究了分布式数据检索技术和最优搜索理论的相关知识的基础上,进一步重点研究了最优搜索理论与分布式数据检索技术的结合。首先利用最优搜索理论建立分布式数据检索系统的数学模型,分析最优搜索模型的初始概率分布并研究初始概率调整的方法,再根据系统模型的特征确定探测函数的形式。然后在搜索时间有限的约束条件下,制定最优搜索策略,使得目标的检索概率达到最大,并且在用户搜索结果数固定的情况下,使检索的时间期望值达到最小。最后还研究了初始概率分布对探测概率造成的误差值。另外,本文还根据分布式数据检索系统的模型设计并实现了基于最优搜索理论的分布式数据检索系统。之后在该系统上进行了一系列的实验,讨论了各检索服务器的检索次序以及系统运行一段时间后初始概率分布的调整对系统性能的影响。并通过查准率和查询时间两个方面对传统的分布式检索系统和基于最优搜索理论的分布式检索系统进行比较评价,证实了最优搜索理论对分布式数据检索系统具有明显的优化效果。