论文部分内容阅读
以实体为中心的结构化数据在网络上迅速增长。一个实体的描述由属性-取值对(property-value pair)组成,一个属性-取值对也称为一个特征(feature)。实体的描述在许多应用中变得越来越庞大,为了避免信息过载,目前研究工作都致力于对实体进行自动化摘要。实体摘要是指自动选择有限个特征呈现给用户。然而,目前的工作都只考虑单个实体的摘要,而几乎没有工作提及多个实体的对比式摘要方法,即使对比式摘要能够在应用于很多场景,例如交互式实体匹配和交互式实体链接。 最近对实体匹配这一问题的研究,包括主动学习,众包和pay-as-you-go方法都在过程中涉及人工参与交互式实体匹配任务,即邀请用户判断两个实体描述是否指向现实世界中的同一事物。实体链接是指将文本中的一个实体名称链接到知识库中的对应实体。这一课题的研究也需要人工参与实体链接任务。例如,为评价自动方法需要人工制定一些标准答案,为众包方法提高实体链接的质量等等。然而,知识库中实体的结构化描述有时非常多,可能有几百个甚至上千个三元组描述。为了避免给用户呈现过多信息而增加用户负担,并且帮助用户更加快速高效地完成实体匹配任务和实体链接任务,本文旨在自动生成一个有效的,紧凑的摘要代替完整描述。 对于交互式实体匹配场景下的双实体对比式摘要,本文考虑选择那些强烈反映实体间共性以及差异性的三元组以及那些具有很强刻画能力的三元组作为摘要,同时也需要考虑摘要中信息的多样性。被选出的三元组按照分组排序的方式呈现以提高可读性,从而进一步加快用户判断的速度。对于交互式实体链接场景下的多实体对比式摘要,参考之前的指标,本文从多个角度分析知识库中的实体描述以及文本中的实体名称,包括三元组刻画能力,不同实体的三元组区分能力,同一实体三元组的信息冗余以及三元组与文本相关程度等。 为了评价本文提出的两个场景下的对比式摘要方法的有效性,本文进行了三个用户实验。实验结果表明,用本文中提出的方法生成的摘要对比呈现完整描述,能够帮助用户提高判断效率(在实体匹配任务上,时间加快了3.57-3.78倍,在实体链接任务上,时间快了快了22-23%),并且为用户呈现该摘要并没有降低用户交互式任务的准确性,同时本文提出的摘要方法上用户的准确度也远远高于现有的其他摘要方法。