论文部分内容阅读
实体检索是目前学者研究的重要领域。实体检索系统的性能好坏主要由实体的排序顺序决定的。实体排序的研究成为实体检索领域中重要的任务之一。在过去的大部分工作中,排序算法主要计算检索的备选实体计算与查询的相似度,依此为根据从大到小排序备选实体,输出前K个实体结果。全部的备选实体需要计算相似度,而且在处理完整体实体集后才能返回第一个结果。为解决上述两种问题,本文研究一种分块的轮廓查询的实体排序算法。本论文研究了实体排序算法应用轮廓查询需要的各种条件,对备选实体集进行一些预处理。对备选实体集中的实体表现形式进行结构化处理,实体的文本型属性特征量化处理,把主题扩展为查询。然后,设计实体排序算法。根据不同的用户需求,提出了两种算法实现。第一种:在备选实体集的轮廓实体集中选择前K个实体作为最终的实体列表。将备选实体集划分为不同的分组,构建最小外接矩形层次结构,建立R索引树。从R树中检索具有最优偏好函数得分的轮廓实体对象作为第一个返回的实体。以最小外接矩形为单位判断实体之间的支配关系,被支配的则被修剪掉,不被支配的继续处理,直到检索到K个轮廓实体对象。第二种:用户指定具有不同权重的偏好函数,检索到的实体结果并不完全是轮廓实体。与前面算法不同之处在于检索到第一个最优的轮廓实体对象后,从该轮廓实体的支配区域内的轮廓实体对象和原来除去该轮廓实体对象后的剩余轮廓实体对象的集合中检索次轮廓实体对象。最后,对本论文提出的实体排序算法进行维护和算法分析。本文不仅研究增加和删除实体时,如何保持正确的最终实体列表,还证明了本文提出算法的正确性和优越性。实验在维基百科实体集上进行以验证算法的有效性,同时验证了实体属性维度对算法性能的影响。因此本论文提出的算法具有很好理论意义。