论文部分内容阅读
作为语义网的基石,资源描述框架(Resource Description Framework,RDF)是万维网联盟(World Wide Web Consortium,W3C)提倡的一个数据模型,用来描述万维网上的资源以及相互之间的联系。随着语义网的发展和越来越多的开放数据平台的出现,大量以实体为中心的结构化RDF数据被发布到万维网上进行分享和重用。通常来说,RDF数据集规模较大,数量很多,且可能涉及多个主题。在短时间内,如果仅仅提供如作者,发布日期这些元数据信息,用户可能无法判断该数据集能否满足需求。因此,如何帮助用户快速浏览数据集的主要内容并评估数据集的有效性是一项颇有挑战的问题。实际上,摘要由于概括性或者代表性地描述了数据集的内容,因此可以提供数据集内容的快速探查。本文提出RDF数据集的概括式摘要和抽取式摘要方法,试图帮助用户在短时间内快速评估数据集的有效性,本文的工作主要有两个贡献:1.提出了一种针对RDF数据集的概括式摘要生成方法,该方法考虑数据集的覆盖度,分组的内聚度,同构度以及分组之间的重叠度和最后生成的分层摘要的高度,并将它们建模成一个组合优化问题并提供一个较为有效的算法求解该问题,在可用的计算资源下生成用户可控的分层分组摘要。在现实世界中的数据集上的实验验证了该方法的有效性。此外,本文还基于此方法实现了一个原型系统。2.提出了一种针对RDF数据集的抽取式摘要生成方法,该方法考虑到数据集中三元组中的实体的类型和属性的覆盖度,实体的熟悉度及摘要的内聚性,并将它们建模成一个新的组合优化问题,称之为最大权重和覆盖连通图问题(maximum-weight-and-coverage connected graph problem,MwcCG),并针对该问题提出一个常数因子的近似解法,生成用户可读的摘要片段。最后,同样基于现实世界中的真实数据集,分别对比该方法和基准方法生成的摘要的质量,并使用了人工评估的方式,验证了该方法生成的摘要片段的有效性。