对比式实体摘要方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:plateau_t
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以实体为中心的结构化数据在网络上迅速增长。一个实体的描述由属性-取值对(property-value pair)组成,一个属性-取值对也称为一个特征(feature)。实体的描述在许多应用中变得越来越庞大,为了避免信息过载,目前研究工作都致力于对实体进行自动化摘要。实体摘要是指自动选择有限个特征呈现给用户。然而,目前的工作都只考虑单个实体的摘要,而几乎没有工作提及多个实体的对比式摘要方法,即使对比式摘要能够在应用于很多场景,例如交互式实体匹配和交互式实体链接。  最近对实体匹配这一问题的研究,包括主动学习,众包和pay-as-you-go方法都在过程中涉及人工参与交互式实体匹配任务,即邀请用户判断两个实体描述是否指向现实世界中的同一事物。实体链接是指将文本中的一个实体名称链接到知识库中的对应实体。这一课题的研究也需要人工参与实体链接任务。例如,为评价自动方法需要人工制定一些标准答案,为众包方法提高实体链接的质量等等。然而,知识库中实体的结构化描述有时非常多,可能有几百个甚至上千个三元组描述。为了避免给用户呈现过多信息而增加用户负担,并且帮助用户更加快速高效地完成实体匹配任务和实体链接任务,本文旨在自动生成一个有效的,紧凑的摘要代替完整描述。  对于交互式实体匹配场景下的双实体对比式摘要,本文考虑选择那些强烈反映实体间共性以及差异性的三元组以及那些具有很强刻画能力的三元组作为摘要,同时也需要考虑摘要中信息的多样性。被选出的三元组按照分组排序的方式呈现以提高可读性,从而进一步加快用户判断的速度。对于交互式实体链接场景下的多实体对比式摘要,参考之前的指标,本文从多个角度分析知识库中的实体描述以及文本中的实体名称,包括三元组刻画能力,不同实体的三元组区分能力,同一实体三元组的信息冗余以及三元组与文本相关程度等。  为了评价本文提出的两个场景下的对比式摘要方法的有效性,本文进行了三个用户实验。实验结果表明,用本文中提出的方法生成的摘要对比呈现完整描述,能够帮助用户提高判断效率(在实体匹配任务上,时间加快了3.57-3.78倍,在实体链接任务上,时间快了快了22-23%),并且为用户呈现该摘要并没有降低用户交互式任务的准确性,同时本文提出的摘要方法上用户的准确度也远远高于现有的其他摘要方法。
其他文献
该文通过对空中交通管制程序、陆空通话模式、机场管理方式等的分析综合,提出并拟定了基于图形工作站实现塔台管制模拟器的总体方案.在此基础上,讨论了三维真实感图形实现的
随着网络特别是Internet的迅猛发展,网络并行计算成了并行计算新的研究方向.我们改进了WebParallel网络并行计算模型.WebParallel模型采用了客户/服务器模式,以浏览器为计算
真实应用中的复杂对象语义丰富、表示复杂,如:包含文字、语音和图像的多媒体数据以及用于身份识别的面部和指纹特征等,这些从不同角度刻画或描述同一事物的数据被业界称为多模
支撑平台是开发大型应用软件系统的关键技术之一.该文从电力系统的SCADA/EMS/DMS应用的角度出发,对面向对象SCADA/EMS/DMS可视化平台的理论和方法进行了深入的研究和实践.论
该文开发的JavaWeb数据库应用服务器,简称JWDAS,是一个用纯Java实现的、集WEB服务器和数据库应用服务器于一体的、构筑Intranet应用的开发平台.Servlet——服务器端的小服务
本文论述了基于面向对象方法进行3D模型转换程序的设计与实现,并在此基础上结合实际工程项目,实现了3D仿真模拟训练系统模型生成与交互部分的软件。本文较详细地介绍了3D模型转
多媒体相册系统为多媒体家用软件产品提供了标准结构框架。本系统的设计是建立在组件对象模型(COM)架构基础上的,使用ActiveX控件技术设计其功能模块。图像处理控件是系统的关键
随着大数据时代的到来,大规模数据存储成为大数据的关键技术之一。分布式存储系统大多部署在廉价的商用机器上,节点失效已经成为一种常态。因此,如何构建面向海量数据的可靠存储
随着Internet应用的日益普及,计算机网络的安全性越来越受到人们的重视。如果打算利用Inernet从事诸如政治、经济等需要有安全保证的活动,那么决策者首先想到的就是网络的安全
该文的研究工作可概括如下:通过描述IP视频提供的快捷、丰富的业务及与其它网络互联给用户带来的信息化体验,阐述了IP视频的发展、基本特征及其原理.同时将目前"网上大学"一