论文部分内容阅读
随着分布式计算技术的迅猛发展,“数据孤岛”问题日趋严重,异构数据源集成成为研究热点之一。数据集成的目标是在充分利用已有系统并尽量保持其自治性的前提下,屏蔽底层数据源细节,使用户可以无缝且灵活地进行访问,实现数据资源共享。数据集成是信息系统集成的基础和关键,好的数据集成系统可以保证用户低代价、高效率地使用异构数据,越来越多的组织已意识到数据集成在日常运作和管理中的重要性。
面向服务体系结构(SOA)提供的松散耦合、跨平台特性,为数据集成系统的实现提供了一种新思路。在此架构下,本文研究了异构数据源集成的相关理论和技术,结合本体映射,提出了一种基于本体及SOA的异构数据源集成方法:即通过SOA的松散耦合特征消除底层运行环境的异构性,依托本体映射弱化语义的异构性,并利用XML提供一致的数据访问媒介。
论文首先借鉴以往研究成果,改进了知网环境下词汇相似度计算算法,提出了基于层次树的多因素义原相似度计算方法,并将其应用到中文本体映射中。实验结果显示,该算法能有效提高本体映射准确度,并使映射结果更加科学、合理。其次,通过分析XML文档、XML Schema及OWL的语法,给出了从结构化数据向XML格式、从XML Schema向OWL转化和映射的办法,使XML与本体有机联系起来,为存储格式各异的数据相互融合提供了一种新方案。第三,结合数据集成系统涉及的多数据源处理问题,使用了对XQuery全局查询语句进行分解的方法,让用户通过统一的查询接口或界面,就能实现对多数据源的数据检索和处理。最后,采用面向服务架构下的Web Service技术,实现了对各类功能组件的封装和远程调用,使集成结构更适用于分布式环境,更有利于系统的移植和复用。
经验证,基于面向服务体系结构的软件开发方法能较好地解决底层开发环境的异构问题,提高系统的灵活性和可扩展性;将本体引入数据集成领域并基于知网实现映射,既能实现对中文的支持,亦能在很大程度上提高数据集成精度,增强集成效果;使用XML格式作为标准数据源,能充分发挥SOA及Web Service技术的优势,在较大程度上提高系统的适应能力和服务水平。