论文部分内容阅读
随着互联网技术的快速发展,人们越来越倾向于通过网络来检索、获取相关信息,从而为自己的各种行为提供决策支持。传统的房地产中介公司也注意到了互联网化的益处,纷纷推出了各自的房产信息综合服务平台,用户可根据自己的需求,在Web平台上进行定制化查询以获取满足条件的房产信息。但以上平台仍存在许多不足,用户无法通过统一的方式来获取、比较各平台发布的异质异构数据,同时各平台发布的房产数据间可能存在语义差别或语义关联缺失,无法满足用户对于全方面、多层次、富含语义的房产信息的需求。而关联数据技术为解决上述问题提供了良好的方案。关联数据制定了一套如何在Web上发布和关联结构化数据的标准,因此本文在关联数据技术的基础上,提出了一个房产领域数据的关联融合模式,主要包含房产领域本体模型的构建、关联房产数据的发布、房产领域数据的关联构建以及关联房产数据的应用开发4个部分。首先不同平台发布的房产数据集的描述术语可能存在语义差别,因此需要构建一个房产领域的本体模型,用于实现房产领域信息的统一描述和规范表达。本体模型内主要包含房产领域核心概念、树状分层结构以及丰富的语义关系,为后续的关联数据格式转换以及关联计算提供了语义基础。其次需要考虑关联房产数据的发布问题。主要从URI设计、RDF格式转换和关联发布3个方面展开讨论。URI的设计需要遵循Cool URI规范,针对不同类型的资源,选用合适的URI命名策略,并且在URI的设计中加入关键字信息,方便用户识别不同URI标识的资源。为了将不同类型的数据转换为统一的RDF格式,本文提出了一个基于配置文件的关联转换框架,通过配置文件可引入语义描述信息和转换过程的相关参数。关联发布则可以依靠特定关联发布工具实现。然后重点研究房产领域内数据的关联方法。关联数据最重要的价值在于其将分布存储的不同数据集通过RDF链接机制实现了互联互通。常见的关联算法主要分为基于属性的相似度匹配和基于关系的关联计算,其中基于单一属性来比较对象的相似性往往不够准确,会引起关联丢失、错判等现象,因此本文对传统的基于单一文本属性的关联匹配进行拓展,考虑多重属性相似度聚合计算。对于一般关系的关联计算,除了基于JTS算子提供拓扑关系的判断,还实现了房产领域内的特定关联关系算子。由于房产领域内数据集规模较大,因此考虑关联关系的自动构建,提出了一个基于关联规则的关联计算框架,借助Jena API等开源库实现了各种关联关系的自动构建。最后本文设计并实现了一个面向房产领域的数据集成原型系统,在应用子系统部分,在已关联的房产数据基础上可开发各种不同的应用,以最大化发挥房产信息资源的价值。除了常见的关联浏览以及语义化查询功能外,本文还提出了一个房产周边配套设施成熟度的应用模型,基于统一方式从关联房产数据网络中获取输入数据,并融合计算得出新的量化指数,为人们的看房、买房行为提供更深层次的决策支持信息,同时也为其他应用开发者关于如何在关联数据的基础上开发应用提供了一个参考的方向。