论文部分内容阅读
随着互联网应用的深入普及和多元化发展,Web上的信息呈现爆炸式增长的趋势。然而过于庞杂的数据也增加了用户信息检索的难度,使得用户对查询的描述和结果的定位变得愈加困难。因此,如何有效地支持用户对Web信息的检索成为互联网搜索领域的一个研究热点。方面搜索作为一种典型的探索式搜索技术,集成了目录式浏览提供的搜索导航能力和关键字搜索具有的搜索灵活性,为大规模数据空间的信息搜索提供了一种便捷高效的模式。然而方面搜索技术的实现要求数据集具有一个良好的方面分类,对于Web这样缺乏元数据的跨领域数据集,方面分类的有效构建是方面搜索技术在Web上应用所面临的一个难题。同时,Web数据的异构性和大规模特点,以及Web搜索中用户搜索意图的转移性等都为方面搜索的实现提出了更高的要求和挑战。本文研究并解决了在Web上实现方面搜索技术存在的困难,提出了一套完整的从数据准备、搜索模型到排序算法的Web方面搜索方法,并在真实Web数据集上实现了以命名实体为搜索对象的Web方面搜索系统原型:FacetedWeb,通过基准实验比较和用户评测来评估提出的各项技术的性能和有效性。本文首先针对Web文本缺乏有效的元数据,难以构造方面分类的问题,提出一种基于命名实体(Named entity)的Web结构化标注方法,将无结构的Web文档转化成结构化的实体元组,在支持以实体为粒度的语义搜索的同时实现了对Web的方面分类和搜索。同时,结合Web数据集上进行实体识别和元组构建时存在的不确定性,提出一个基于用户导航开销的Web方面搜索框架。接着,本文分析Web数据集的大规模、异构等特点对方面搜索提出的新挑战,依次研究了适用于Web方面搜索系统的搜索模型、排序算法等,并提出相应的改进方法:1)扩展式搜索模型:针对Web搜索中用户意图的不确定性和转移性,以及大规模的Web数据给搜索效率带来的挑战,提出一种扩展式搜索模型。扩展式搜索优先搜索与查询大量共现的、相似度高的实体来构成初始的结果集,在保证较高的结果精确度的同时极大地提高了搜索的效率;同时,在迭代搜索过程中,扩展式搜索模型不仅对初始结果集进行精化,而且依据用户通过选择方面所表达的查询意图的变化,动态地获取与用户新的查询意图相关的实体,对初始结果集进行扩展,有效地提高了迭代搜索过程中结果的有效性。2)快速实体排序算法:为提高大规模Web数据集中实体的排序效率,提出一种增量式的快速实体相关性算法:FastPPV。FastPPV将精确PPV计算中所涉及的访问路径划分成重要程度不同的子集,通过调度路径子集来对PPV计算的效率和精确度进行调控。同时还提出了基于hub结点的FastPPV的高效实现。以路径的hub长度作为路径重要性的衡量标准来有效地划分路径子集,并利用离线阶段预计算的hub结点初始PPV来组合任意查询、任意迭代时的PPV增量,实现了不同PPV计算过程中的组合复用,极大地提高了计算的效率。3)动态方面排序算法:针对异构Web方面搜索过程中用户关注点的转移性以及扩展式搜索模式可能存在的实体遗漏情况,提出一种结合方面的局部相关性和全局相关性的动态方面排序算法。通过计算方面的局部相关性,即,基于当前搜索结果集计算的方面与查询的相关性,可以确保方面列表能够反映用户浏览重心的动态变化,提供满足用户搜索意图的结果;另一方面,基于整个数据集来计算方面的全局相关性,发掘方面之间的固有联系,为用户访问在初始结果集中缺失的实体提供了路径。在原型系统FacetedWeb上的大量实验验证了上述扩展式搜索模型及实体、方面排序算法在结果有效性和搜索效率上的优势。