论文部分内容阅读
伴随着互联网的日益普及和开放数据运动的迅速兴起,智慧城市、信息消费的应用需求越来越多,对政府数据开放的需求也越来越多。政府数据开放就是把政府所掌握的大量原始数据,以“机器可读”的形式,让任何人可免费使用、转化和共享;政府数据开放所开放的数据资源即称为政府开放数据。政府数据开放说易行难,综合对比分析国内外政府数据开放现状,目前我国政府数据开放虽初具数据开放基础,但在宏观层面仍面临数据开放规模较小、数据管理缺乏统一标准等问题;在微观层面,政府到底应该如何开放政府数据?如何描述和发布数据?如何让用户找到并利用这些数据?本文以政府开放数据为研究对象,针对国内政府数据开放所面临的问题和挑战,并以政府开放数据的相关性为基础,基于关联数据对政府开放数据所涉及的两个核心问题即政府开放数据的语义描述和实体同一性问题进行探讨研究。首先,对政府开放数据的相关性进行分析。政府开放数据的相关性体现了数据资源之间固有的关联价值;构建了政府开放数据的相关性四维模型,从不同维度上解析数据相关性类型及价值评价,根据四维模型提出基于关联数据的解决方案,以数据集描述和数据关联发现中实体同一性问题作为解决方案中的核心问题,同时阐述语义描述与实体同一性的因果关系。其次,针对政府开放数据的语义描述问题进行研究。构建政府开放数据的语义描述框架,从描述层、关联层和应用层对政府开放数据进行语义描述分析,将数据集进行分类,按照外部描述和内部描述的方法对数据集进行语义描述,将外部划分为元数据标识信息、数据集标识信息、数据集限制信息和数据集维护信息四类并以领域本体的思想解决数据集内部结构的语义描述问题。最后,对政府开放数据存在的实体同一性问题进行研究,分析实体同一性的类型,并针对政府开放数据从数据集维度来构建实体同一性识别方法流程,具体包括“数据集内部结构识别?构建索引文件?共指实体识别”,在实体识别过程中提出一种基于属性和属性值相似度计算的数据实体同一性判定方法,并利用真实政府开放数据进行方法验证,成功识别数据集中共指实体,突出了研究的可行性;同时对实验结果进行解析,总结方法的不足之处。