论文部分内容阅读
随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不完确定性和不完全性。为了处理这些数据,1996年,Dev和Sarkalar提出了一种概率数据模式以及概率数据库模型。但是这种概率数据模式和概率数据库模型存在着诸多缺点,因此需要扩展数据模式,完善概率数据库理论,来处理不确定性数据,描述现实世界。概率关系模式将概率理论应用于经典关系模式中,并且有相当完善的代数结构体系。由于现实数据并不都是关系的,所以概率理论同样适用于其它类型的数据。目前学者最感兴趣的是半结构化概率数据模式,Dekhtyar等人提出了一种管理概率半结构化数据的方法,该方法以关系数据库技术为基础,支持丰富的代数查询。概率数据库中使用空值表示不完全数据,传统的处理空值的方法是将其屏蔽。本文提出对空值取值范围进行概率分配,产生的概率区间可以通过折中算法转化为单个值,对数值型数据可以根据概率分布,使用1次矩运算计算数学期望值。在此基础上,本文提出了区间概率XML模型(IPXML),该模型使用区间概率代替点概率来描述结点,可以更好地描述概率数据和不完全数据,而满足查询的返回结果会更丰富。本文首先介绍了不确定数据、可能世界模型、基础概率理论和概率关系模式,并且描述了概率关系的基本操作,以及空值理论基础。概率数据库中包含空值时,提高了其复杂性,并使空缺概率在整体概率中所起的作用形成两种不同的解释,而其中的一种解释形成了概率区间。本文提出了在关系模式下,通过基本代数运算对空值的屏蔽解决此类问题,然后提出对概率区间的处理使用一种折中的算法,使概率区间可以用单个值来代替。最后,本文以此为基础,提出了用区间概率代替每个节点的点概率,基于XML弱实例建立XML区间概率模型,声明其语义,并证明其语义的正确性,提出查询算法和相应的返回结果,最后进行实验分析。