论文部分内容阅读
数据模型是XML数据管理研究领域的核心问题之一,用来给出XML数据以及数据上操作的精确语义,是XML数据查询处理和优化的基础。目前数据的不确定性普遍存在于经济、军事、物流、金融、电信等领域的具体应用中,不同来源的数据通常有着不同的数据形式和应用特点,人们如果想有效利用这些数据,则需要解决各种数据本身的精确性及它们之间存在的差异性等问题,并通过建立数据模型提供高效的管理和真实有效的查询。因此,大量的不确定数据需要有高效的管理,并且要能为用户提供方便、有效、真实的查询[56]。因此对不确定数据模型进行研究,有着很重要的应用价值[56]。现实世界中的传感器等应用,可能需要使用多个连续随机变量共同描述一个现实对象,而这些随机变量又具有相关关系。最近几年,人们开展了一些相关研究,提出了一些不确定XML数据模型的查询处理方法,但这些数据模型并没有涉及多维连续分布及其查询,针对目前连续不确定XML数据模型仅局限于支持一维连续分布的情况,本文在已有模型的基础上,提出一种连续不确定XML数据模型ESMC(Extended Supporting Multi-dimensional Continuous)数据模型,支持多维连续随机变量的不确定XML数据表示。此外,还定义了模型上的联合概率及条件概率查询;采取的查询策略可以为不同的连续分布类型选择合适的特征值计算方法;同时研究了基于该数据模型的聚集查询,给出了支持多维连续不确定XML数据的聚集查询算法,既支持XPath表达式,又能够根据不同类型的连续函数选择合适的聚集方法。通过大量实验设计,对文章提出的概率与特征值查询策略及聚集查询算法性能进行测试,实验结果表明,采取的查询策略较大程度上提高了查询处理效率及查询计算结果的精度;聚集查询算法能够有效地处理支持多维连续不确定XML数据的聚集查询,并且具有很好的可扩展性。