RDF数据集的摘要方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:jekiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为语义网的基石,资源描述框架(Resource Description Framework,RDF)是万维网联盟(World Wide Web Consortium,W3C)提倡的一个数据模型,用来描述万维网上的资源以及相互之间的联系。随着语义网的发展和越来越多的开放数据平台的出现,大量以实体为中心的结构化RDF数据被发布到万维网上进行分享和重用。通常来说,RDF数据集规模较大,数量很多,且可能涉及多个主题。在短时间内,如果仅仅提供如作者,发布日期这些元数据信息,用户可能无法判断该数据集能否满足需求。因此,如何帮助用户快速浏览数据集的主要内容并评估数据集的有效性是一项颇有挑战的问题。实际上,摘要由于概括性或者代表性地描述了数据集的内容,因此可以提供数据集内容的快速探查。本文提出RDF数据集的概括式摘要和抽取式摘要方法,试图帮助用户在短时间内快速评估数据集的有效性,本文的工作主要有两个贡献:1.提出了一种针对RDF数据集的概括式摘要生成方法,该方法考虑数据集的覆盖度,分组的内聚度,同构度以及分组之间的重叠度和最后生成的分层摘要的高度,并将它们建模成一个组合优化问题并提供一个较为有效的算法求解该问题,在可用的计算资源下生成用户可控的分层分组摘要。在现实世界中的数据集上的实验验证了该方法的有效性。此外,本文还基于此方法实现了一个原型系统。2.提出了一种针对RDF数据集的抽取式摘要生成方法,该方法考虑到数据集中三元组中的实体的类型和属性的覆盖度,实体的熟悉度及摘要的内聚性,并将它们建模成一个新的组合优化问题,称之为最大权重和覆盖连通图问题(maximum-weight-and-coverage connected graph problem,MwcCG),并针对该问题提出一个常数因子的近似解法,生成用户可读的摘要片段。最后,同样基于现实世界中的真实数据集,分别对比该方法和基准方法生成的摘要的质量,并使用了人工评估的方式,验证了该方法生成的摘要片段的有效性。
其他文献
随着嵌入式实时系统VxWorks 在国内的广泛应用,基于VxWorks 平台的旧显示解决方案已经不能满足用户对该系统性能日益增长的要求。本课题正是为了解决这一问题,深入研究了基于
智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题,是计算机科学、机器视觉、图像工程、模式识别、人工智能等多学科高技术的结晶。其目标是在不需要人
制造业是国民经济的基础产业,制造业的水平高低是衡量一个国家工业发达程度的重要标志。电气传动技术则是先进制造技术的基础。电气传动技术以电机为控制对象,以微电子装置为控
数字水印技术的兴起,将会填补传统密码学保护手段的安全漏洞,通过向被保护的多媒体数据中加入透明的秘密信息,来达到标识、鉴别、控制或隐藏信息等作用。对日益严重的盗版和
采煤和掘进是煤矿生产中两个极为重要的环节,煤矿采掘衔接工作质量的高低直接影响到其生产安全性和生产效益。地理信息系统的产生和发展为提高煤矿生产衔接效率提供了新的可
嵌入式 GIS 是 GIS 与新兴嵌入式系统相结合的一种产物,它是传统 GIS 领域的分支与延伸、补充与发展。随着硬件平台、多操作系统、GPS 应用以及移动互联的技术支持,嵌入式 GI
随着计算机技术的发展,现在的软件越来越复杂,其价值也由于软件厂商为此的巨大投入而得到了提升,软件盗版也因此日益严重。如何对软件进行有效地保护成为影响软件产业良性发