概率数据库中空值处理方法及区间概率模型的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:worbestczhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不完确定性和不完全性。为了处理这些数据,1996年,Dev和Sarkalar提出了一种概率数据模式以及概率数据库模型。但是这种概率数据模式和概率数据库模型存在着诸多缺点,因此需要扩展数据模式,完善概率数据库理论,来处理不确定性数据,描述现实世界。概率关系模式将概率理论应用于经典关系模式中,并且有相当完善的代数结构体系。由于现实数据并不都是关系的,所以概率理论同样适用于其它类型的数据。目前学者最感兴趣的是半结构化概率数据模式,Dekhtyar等人提出了一种管理概率半结构化数据的方法,该方法以关系数据库技术为基础,支持丰富的代数查询。概率数据库中使用空值表示不完全数据,传统的处理空值的方法是将其屏蔽。本文提出对空值取值范围进行概率分配,产生的概率区间可以通过折中算法转化为单个值,对数值型数据可以根据概率分布,使用1次矩运算计算数学期望值。在此基础上,本文提出了区间概率XML模型(IPXML),该模型使用区间概率代替点概率来描述结点,可以更好地描述概率数据和不完全数据,而满足查询的返回结果会更丰富。本文首先介绍了不确定数据、可能世界模型、基础概率理论和概率关系模式,并且描述了概率关系的基本操作,以及空值理论基础。概率数据库中包含空值时,提高了其复杂性,并使空缺概率在整体概率中所起的作用形成两种不同的解释,而其中的一种解释形成了概率区间。本文提出了在关系模式下,通过基本代数运算对空值的屏蔽解决此类问题,然后提出对概率区间的处理使用一种折中的算法,使概率区间可以用单个值来代替。最后,本文以此为基础,提出了用区间概率代替每个节点的点概率,基于XML弱实例建立XML区间概率模型,声明其语义,并证明其语义的正确性,提出查询算法和相应的返回结果,最后进行实验分析。
其他文献
推荐系统通过预测用户对项目的喜好程度来为用户进行信息过滤,应用知识发现技术来生成个性化推荐。协同过滤是一种常用的减少信息过载的技术,已经成为了个性化推荐系统的一种主
随着信息技术的发展,尤其是数据获取技术和数据存储技术的发展,人们几乎可以随时随地获取数量巨大的数据,并存储下来。然而,数据本身的价值有限,如果没有一种有效的工具帮助
近年来,随着互联网的迅速发展,数字多媒体图像出现了飞跃式的增长,海量的图像资源给人类带来了便利同时也带来了挑战,比如,如何准确、高效地从大量图像数据库中检索出所需资
随着Internet和信息技术的不断发展,基于Internet集成和发布企业信息,为企业经营决策提供信息化平台,已成为一种发展趋势。电力系统作为国民经济的关键部门,同样面临着信息集
在数字医学图像研究中,人们经常希望根据医学断层图像恢复出真实三维物体图像,建立虚拟的人体器官和组织,以便进行医学、诊断和放射治疗计划中三维剂量场的计算。然而,由于在
随着信息技术的高速发展,计算机系统已经被广泛的应用于日常生活中的各个方面,比如电话通讯系统、银行系统等。这些系统大部分都需要后台运行的分布式算法来完成一些基本目标
在智能化的背景下,手机、电脑、电视的功能趋于多元,如何充分利用各种智能终端的优势,实现智能终端间的互通互联与资源共享,正成为未来家庭娱乐发展的目标。多屏互动技术正是
随着近年来计算机技术的迅速发展和其在生活中的普遍应用,使得网络中存储了大量的数据。集值数据的典型来源有:超市的购物记录、web查询记录、患者医疗数据等。发布收集到的数
随着多媒体技术的迅速发展,互联网上每天都有大量的图像和视频在传播和分享。图像和视频的出现使我们的生活变得丰富多彩,但同时也带来了一系列的问题。例如,人们越来越喜欢
随着Internet的不断发展,作为半结构化语言的XML逐渐成为重要的数据载体,诸多应用和服务都采用XML作为数据传输对象,因此XML数据的安全性变得非常重要。在这种情况下,针对XML