论文部分内容阅读
实现数据的共享,可以使更多的人更充分的使用已有数据资源,减少资源收集的重复劳动和相应费用。然而,数据共享的过程中,由于数据库系统之间存在硬件平台、操作系统、网络协议、数据库类型、语义表示等多方面的差异,形成了一个个的“信息孤岛”,严重阻碍了数据的共享和流通。实现异构数据库间的数据共享,实质上是要通过一定的技术手段消除数据库间的异构。相对于消除硬件和操作系统之间的异构问题来说,解决数据共享问题的关键在于消除数据库系统本身的差异。本文针对现有异构消解方法中存在的不足,将数据库本身的异构问题分数据类型异构、属性语义异构和数据库模式异构三类分别进行了研究。本文的主要研究内容如下:异构数据库属性匹配,可利用属性的元数据和取值信息进行属性相似性判断。但此方法存在部分属性特征不能反映属性实际意义的问题,针对此问题,本文提出了一种改进的属性特征提取方法。该方法通过合理选取描述属性的特征值,经实验验证,在不降低匹配准确率的同时提高了匹配的效率,并通过将不同数据库的数据类型映射到公共数据类型的途径,解决了数据类型异构的问题。针对神经网络方法在相同属性的匹配中因算法本身的局限性导致的匹配准确率和效率不高的问题,本文提出将属性的匹配问题抽象为空间中寻找最近邻居的问题来解决,并分析了由传统kNN算法改进的k-means算法和SVM-kNN算法不适合于处理属性匹配问题,因此结合相同属性匹配问题本身的特点,提出了采用搜索策略作为向量预筛选手段的FKNMatchAD-kNN算法来求解相同属性。通过和基于神经网络方法的对比实验,验证了本文提出的方法在提高匹配效率、屏蔽噪声数据等方面较以往方法更具优势,并且在匹配的查全率上有了明显的改进。针对当前消除数据库之间模式异构的方法存在通用性不好的问题,在不同数据库间映射规则的基础上,提出了基于规则的查询转换算法QTMR。通过实验验证,QTMR算法能有效的消除分布环境下的模式异构问题。最后在充分考虑分布环境下数据共享需求的基础上,提出了一种异构数据库数据共享的设计方案,详细介绍了功能模块的组成、原理和关键技术的实现方法。