论文部分内容阅读
随着信息技术的飞速发展,互联网信息量正呈爆炸性增长,万维网己成为一个巨大而复杂的信息空间,人们己从信息缺乏转变为信息过载。互联网信息具有分散、无序、海量等特点,如何从浩瀚的信息资源中快速、有效、准确地找到所需信息是一个具有挑战性的研究课题,Web搜索正成为互联网领域的研究热点和焦点之一。传统的Web搜索算法注重于Web的链接结构和Web页面等级权重,而忽略了用户的兴趣行为,导致了部分搜索结果不完整及准确率低。此外,通过迭代计算出每个网页的Hub值和Authority值的方式,导致Web搜索的效率较低,并容易出现一定的分散和泛化现象。针对传统的Web搜索算法存在的缺点,本文在总结和分析国内外相关研究工作的基础上,充分结合用户的兴趣行为和相关的智能优化算法来展开研究,主要研究内容及创新性工作概括如下:(1)综述了有关搜索引擎结构及其工作流程、传统Web搜索算法设计思路和启发式算法模型的研究成果及方法,为研究Web搜索算法基础理论的研究者提供参考和借鉴。(2)在分析现有用户兴趣模型表示方式的基础上,针对Web搜索的特点,结合用户浏览行为、用户反馈行为、关键词权重以及短期兴趣和长期兴趣等相关因素,设计了一种基于Web搜索的用户兴趣模型,为后续研究Web环境下的启发式搜索算法奠定基础。(3)在充分结合遗传量子算法和克隆选择算法优点的基础上提出一种克隆遗传量子搜索算法(Clonal Genetic Quantum Search Algorithm, CGQSA),详细介绍了该算法的设计思路和框架,并运用Markov链理论对其收敛性进行分析。同时,具体分析了该算法的计算复杂度,实验结果表明CGQSA算法具备良好的稳定性和可扩展性,其性能明显优于其它的传统Web搜索算法和启发式算法。(4)结合关键词的链接权重和Web页的链接结构,设计一种评估Web页平均权重的数学模型,将每个Web页表示成种群中的一个个体,并用一个适应度函数对其性能进行评估。(5)在遗传算法的基础上,融入模拟退火算法的思想,提出一种遗传模拟退火搜索算法(Genetic Simulated Annealing SearchAlgorithm, GSASA),详细介绍了该算法的设计思路和框架,并对其收敛性进行了具体分析。GSASA算法将遗传算法和模拟退火算法的优点充分结合起来,并充分考虑Web搜索的实际应用环境,在较大程度上提高了算法的运行效率和求解质量。仿真实验取得了较理想的实验结果,从而表明该方法是可行和有效的。我们所得结果是Web搜索算法理论方面的一些一般性的理论成果,这些成果对于设计与实现Web搜索算法仍然具有指导意义。更重要的是,我们所引入的分析手段与方法对于Web搜索算法的相关理论研究具有较为广泛的适用性和参考价值。