论文部分内容阅读
随着数据的采集和处理技术的发展,人们对于处理不确定数据的需求在不断增加。不确定数据普遍存在于现实生活中的众多领域中,且表现具有多样性。根据数据是否有人为因素干预,可以将不确定数据分为两大类,一类是数据来源本身具有不确定性,譬如传感器网络数据、无线射频识(RFID)数据、Internet数据、基于位置数据等;另一类则是数据本身来源是确定的数据,但出于现实需求,人为的将数据处理成不确定数据,譬如k-匿名隐私模型中的数据。不确定数据的出现给传统的关系模型的数据存储模型,数据查询带来了极大的挑战。本文对attribute-or模型的数据依赖、k-匿名关系的分解及不确定关系下的数据依赖等一系列问题进行了研究,主要研究内容如下。针对以attribute-or为数据模型的不确定关系,提出了水平函数依赖和垂直函数依赖两种数据依赖,并证明Armstrong公理系统对于这两类数据依赖同样适用。通过实例对比说明水平函数依赖和垂直函数依赖能更好的描述attribute-or模型下数据之间的联系。提出了attribute-or模型下不确定关系的无损分解算法,有效的减小的不确定关系的可能世界表示,提高了数据的查询效率。随后,针对k-匿名数据提出了分解方法。K-匿名数据是人干预下的不确定数据,数据具有一定的规律性,利用此规律可以很好的将k-匿名关系分解,降低k-匿名关系的数据规模,提高查询效率和数据的可用性。最后文章给出不确定关系模式的形式化定义,根据不确定关系模式域的特点,提出了基于集合思想的三类不确定函数依赖,能够检测出不确定关系是否满足规范化设计,对于不确定关系的设计具有指导意义。