论文部分内容阅读
随着互联网的普及和检索技术的发展,信息检索的研究范畴已经远远超出了传统的文档检索,实体检索目前已成为信息检索研究领域的新焦点。给定用户的信息需求,该技术旨在检索特定的实体如“人”、“地点”、“组织”、“产品”等。本文针对目前实体检索研究领域亟待解决的一系列重要问题,对实体检索展开了系统深入的研究。本文首先研究了实体检索中最重要的一类问题——专家发现(expert finding)问题:1.研究了文档、查询与候选实体的关联子模型。在经典的专家发现模型中,通常假设在给定文档的条件下,候选实体与查询词项条件独立。但是,该假设在实际应用中往往不成立,从而导致专家发现系统性能不佳。针对该问题,本文提出了一种基于主题模型的专家发现方法。该方法建立在潜在Dirichlet分配(latent Dirichlet allocation,LDA)模型的基础上,无需依赖上述条件独立性假设。在CERC(CSIRO Enterprise Research Collection)数据集上的测试结果表明,基于主题模型的专家发现方法能够有效地提升专家发现系统的效能。2.研究了专家发现模型中的文档先验分布。提出了基于DocRank算法的专家发现模型。另外,针对DocRank算法无法处理“同义词”、“近义词”的问题,又提出了TopicRank算法。TopicRank算法使用LDA模型来提取文档的主题,然后通过分析各个文档的主题分布来构造文档图,最后使用链接分析来得到文档先验分布。在此基础上,建立了基于TopicRank算法的文档先验子模型。3.研究了专家发现模型中的候选实体先验分布。候选实体先验概率是对各个候选实体重要性的度量,合理地定义它能够极大地提升专家发现系统的性能。但是,目前大部分研究都简单地假设候选实体先验概率服从均匀分布,即认为所有候选实体是同等重要的。显然,这是与实际情况不相符的。本文提出了一种以主题为中心的候选实体先验子模型,该模型能够有效地利用整个语料集中的信息来得到更加合理的候选实体先验概率。研究不同实体之间的关系对于实体检索非常重要,然而专家发现系统却无法对实体之间的关系进行检索。因此,论文进一步研究了相关实体发现(related entity finding)问题:1.研究了表格和列表中的实体提取方法。网页的表格和列表中包含了大量实体。然而这些实体周围缺少上下文,命名实体识别工具无法有效提取表格和列表中的实体。本文提出了一种针对表格和列表的实体提取方法,该方法首先依据各种表格和列表的特性对其进行分类,之后结合目标实体的精细类型信息从表格和列表中提取出候选实体。2.研究了实体过滤问题。由于使用实体提取方法得到的候选实体列表中包含大量的噪声,在实体提取之后,通常需要对候选实体列表进行过滤。本文提出了基于文档频率的实体过滤模型。与传统的利用实体类型信息进行过滤的方法截然不同,该模型主要利用了实体的文档频率信息过滤实体,具有计算量小、实时性强、效率高的优点。3.研究了实体排序问题。提出了一种基于主题模型的实体排序方法,该方法首先使用LDA提取出相关文档集合的主题分布。在此基础上,利用候选实体与查询之间的同现概率进行实体排序。论文最后研究了实体名称排歧问题。实体名称歧义性问题是实体检索研究中经常遇到的问题。一个实体往往可能具有多个不同的名称,而多个实体也可能共享同一名称。本文研究了实体名称排歧中最重要的一类问题——人物姓名排歧,提出了一种三阶段人物姓名排歧模型。在第一阶段,提出了基于主题模型的人物姓名排歧算法,并分别使用该算法和凝聚式层次聚类算法进行人物姓名排歧。在第二阶段,使用投票模型将第一阶段的聚类结果进行融合得到高纯度的聚类簇。在第三阶段,使用凝聚模型对融合之后的结果进一步聚类,提高聚类结果的逆纯度。