数据完整性模型及评估算法的研究

被引量 : 0次 | 上传用户:wuyikun2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的发展,数据信息呈现急剧的增长趋势,但是数据信息丰富的同时,其中往往伴随着数据质量问题,质量差的数据严重地影响了信息在数字化社会的作用。错误的理解信息,会给人们带来极大的损失。因此数据质量问题是迫切需要解决的问题,数据质量的相关问题也成为了研究的热点。不完整的数据的处理是数据质量问题中常见的问题之一,如何评价数据的完整性,是数据质量研究中的基本问题之一。现有的数据完整性推理方法不能全面的反映数据集合的完整性,同时需要参考额外的完整性信息。现有的完整度计算方法,没有考虑数据集合中的空值可以被集合中其它值填充的特性,因而往往低估了数据集合的完整性。本文针对不完整数据的完整性计算问题,提出了一种可以适用于不同应用的数据完整性计算模型,这个模型由属性值完整性,元组完整性,关系完整性来刻画不同粒度的完整性。通过定义不同的计算函数,可以根据不同的应用来反映三者间的关系。其中属性值的完整性是模型的基础。通过使用函数依赖,可以判断属性值的完整性的真实情况,因而可以真实的评估数据集合的完整程度。在此模型的基础上研究了数据完整性的评估问题,并形式化地定义了这个问题,通过分析不同应用的限制,给出了这个问题的下界,当给出模型中的具体的计算函数时,给出了到达此下界的精确评估算法。为了应对海量数据完整性评估的挑战,提出了基于均匀抽样的数据完整性近似评估算法,理论分析表明这个算法可以满足任意的相对误差精度。通过在抽样方法中采用水库抽样机制,可以提高近似算法评估未知数据集合的完整性的效率,并证明了这种机制同样能保证近似算法的结果能够达到任意给定的误差精度。通过在真实数据集合上的实验证明了本文提出完整性模型能够反映数据集合真实的完整程度,以及精确算法的高效性,同时近似算法的实验结果也显示出近似算法的结果能够控制在给定的相对误差范围内。通过合成数据上的实验分析了精确算法和近似算法在不同空值分布上的数据集合上运行的性能,并分析了在不同应用限制下的算法的选择。
其他文献
时间范畴是重要的语法范畴之一。其研究首先集中在时体方面,其次在时间表达方式方面。对后时方位词的研究也有一些成果,不过大多是论述一个两个词。本文在现有研究基础上,试
<正>安阳钢铁集团有限责任公司始建于1958年,经过50多年的发展,现已成为集采矿选矿、炼焦烧结、钢铁冶炼、轧钢及机械加工、冶金建筑、科研开发、信息技术、物流运输、国际贸
不同于以往仅从语言结构和语言功能角度出发的翻译研究,从心理角度出发的翻译研究主要侧重于翻译过程方面。换言之,以往的翻译研究倾向于结果研究,而心理研究倾向于过程研究
近年来,全国各地通过积极开展农村土地整治工作,一定程度上有效保护了耕地;与此同时,一些地方通过城乡建设用地增减挂钩试点工作促进了新农村的建设、改善了农民生产生活条件、提
总结风水的病因病机;风水因外感风邪,使肺失通调水道,肾失气化,风水相搏散于肌肤所致。根据临床表现,将风水分为热证、寒证、虚证三种证型。对不同证型提出了疏风解表发汗、
维吾尔双联式谚语不仅形象生动,内容精辟,发人深省,而且形式上简短精炼、句式匀称整齐、工整对仗,语音上也响暗交替、抑扬顿挫、回环押韵,极富音乐感。即:具有形式美、音韵美
怎样正确理解成语中名词的模糊性是日常交流中值得重视的一个话题。本文主要目的在于运用合作原则研究汉语成语中名词的模糊性。本文挑选部分有代表性的名词类别进行分析,以此
地震是一种无法提前预测的自然灾害,一旦发生,将会给人类带来无法估计的损失。而大跨度输煤栈桥是煤矿、电厂的重要组成部分,一旦在地震中遭到破坏,将给人们的生产、生活带来极大
三个平面语法理论是一个集实用性,先进性和综合性于一体的新理论。用三个平面理论来分析现代哈萨克语语法是否可行,它能否作为一种分析现代哈萨克语语法问题的有效利器?要弄清楚
自1996年新伦敦小组提出多元识读教学法的概念以来,学界对识读教育开始了更为广泛的关注。在教学法的语境里,“multiliteracies”指的是包括语言识读、视觉识读、听觉识读、肢