论文部分内容阅读
该文针对全局模式受完整性约束,并且数据源的内容之间存在大量覆盖的数据集成问题,提出了一种从关系数据到XML数据的集成机制,它具有良好的系统可扩展性,可以解决由于数据源内容的覆盖而潜在的数据冲突.该文的研究主要围绕半结构化的全局模式及其完整性约束的表示,保持完整性约束的从全局模式到数据源模式的映射,能够处理数据源内容覆盖的集成机制三方面展开,取得的创新性成果如下.(1)以完全标识的XML模式树组成的森林表示受完整性约束的全局模式该文定义XML模式树作为数据模型,描述具有半结构化特征的全局模式.首次将结点出现频度引入对XML树相等的判定,提出了递归的XML树相等的定义.这个定义更为符合现实中人们对半结构化实体个体的识别.在此基础上,定义了XML树的关键字.首次全面研究了关键字在XML模式树上的结构特征.通过完全标识的XML模式树中每一个结点与它的关键字结点集形成的函数依赖表达全局模式上的完整性约束.(2)通过函数依赖模拟,计算保持完整性约束的从全局模式到各数据源的映射对于全局模式上有完整性约束的数据集成,需要在全局模式到各个数据源的映射中体现完整性约束,才能进行预期的集成.与以往的方法不同,该文根据码经由等值连接在关系模式之间的传递规律,通过关系模式对XML模式树上函数依赖的模拟,在全局模式到数据源的映射中保持了完整性约束.以往这种映射大都人工设定,该文中的映射可以通过计算半自动地产生,并且全局模式在各个数据源上的映射单独保存.数据源的变动被局限在本地的映射中,不会影响系统其他部分,从而使该文的解决方案具有其他Global-As-View方案所不具备的良好的系统可扩展性.(3)Mediator-Wrapper结构下能够处理数据源内容覆盖的集成机制数据集成系统能够根据所有数据源的内容为针对全局模式的查询赋值.该文提出了一种针对树模型的简单查询语言Query-On-Tree,用以描述针对全局模式的查询.各个Wrapper根据本地的映射自顶向下为查询的赋值模式树赋值,在完整性约束下,将关系数据源产生查询结果非常自然地转换为XML格式,无需像以往的转换方法那样引用外部函数.Mediator对各个Wrapper返回的结果进行组装时,首次处理了数据源之间内容的覆盖问题.采用的基本思想是,根据全局模式上的完整性约束,识别并且合并相等的XML树,对出现频度不同的子树采取不同的措施,以此消解可能的数据冲突并且集成全局模式中的实体分散在各个数据源的出现频度不确定的那部分数据.对于全局模式受完整性约束,各个数据源的内容之间存在覆盖,从关系数据到XML数据的集成问题,该文提出了一种在保持全局模式上完整性约束前提下,建立在由函数依赖模拟计算的全局模式到源模式的映射之上的GAV数据集成机制.以往并无解决同样问题的数据集成方案.与其他的数据集成相比,该文中的集成机制能够处理由于数据源内容之间的覆盖而可能导致的数据冲突,并且具有良好的系统可扩展性.该文的集成机制已经在TSI和Carehaven项目中得到了成功的应用.需要说明的是,该文对数据集成问题设定的条件完全来自于真实的项目.该文的集成机制也适用于没有上述限制条件的数据集成问题.