基于时间相关属性的双时态改进模型及其上的时态关联规则挖掘实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:zdnumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的发展,人们对时态信息的关注日益提高。时态数据库中既反映能被处理事件的历史性信息又能体现系统中元事件的时态信息的双时态数据库日益受到人们的关注。随着双时态数据库的不断发展,双时态数据库的模型、索引等研究趋于成熟。 通常情况下,表达一条记录的若干属性并非全部与时间相关,而越来越多的研究、数据分析的热点也恰恰集中在那些时间相关的属性上。传统的双时态关系模型虽然涉及到有效时间和事务时间,但其有效时间和事务时间约定在整条记录上,不能专一地约束某一属性,这样,使用户无法区分哪些属性与时间相关、哪些无关,又造成在属性随时间变化时,数据库的变化以记录为最小元,不利于操作效率的提高;与此同时,传统模型之上的一些常见的某些数据分析工作也变得复杂、不够直观,如:根据某一属性在某一特定时间段内的变化规律分析出一些利于决策的结论等。 基于以上原因,本文提出一种改进的双时态关系模型。该双时态关系模型基于时间相关属性,将以往的双时态关系分为主体表和实例表两个部分并通过引用一个类似于对象编号的主体标号属性“hostNo”将二者结合起来,从而实现了时间相关属性与时间无关属性的分离,使得数据分析等着眼于时间相关属性的工作更具针对性,同时,在区分属性的基础上加快了数据的插入和修改,尽可能地减少了查询中连接操作的频度。此外,文章详细地阐述了适合模型的查找、更新操作,具体包括:添加新主体,修改属性,删除主体等。 为验证模型在数据挖掘等数据分析工作中的优越性,本文以时态关联规则挖掘为具体应用,在描述关联规则的基本概念和经典的Apriori算法模型的基础上,结合改进的模型,针对有效时间区间,给出合适的时间区间扩展及归并方法及特殊情况下扩展因子与区间端点变量的处理办法,从而提出一种基于该模型的时态关联规则挖掘算法,并根据一组具体的实验数据集及相关的操作步骤,实验证明了模型在该应用领域的优越性。
其他文献
随着Internet和电子商务的兴起与发展,越来越多的企业在寻求涉及Internet和基于Web技术的解决方案,企业用户对应用服务的需求不断增大,软件市场正面临着一场重大的变革。随着
随着信息技术的发展尤其是高通量技术的进步,数据已成为各行业接触最多,使用最为频繁的信息载体。但海量数据的出现使得人们无法从中获得真正对决策或者预测起作用的信息,从而造
动态优化技术作为一种针对二进制代码的优化方法,能够根据即时的运行环境对程序进行动态的调整优化,从而使得程序在具体的运行环境中得以发挥最优的性能。动态优化系统也可以
在近半个世纪以来,算法研究始终是计算机科学研究的核心内容之一。 作为算法中的经典问题之一,可满足性问题(SAT)是人们证明的最早的NPC问题,它在算法学中的地位非常重要。3-
数据仓库是计算机信息化不断发展的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按决策主题的需要重新进行组织,以达到快速有效支持决策的目标。物化视图
计算机网络的可靠性一直以来都是人们比较关心的问题,而提高网络可靠性的一个主要方法就是及时诊断出网络故障的具体原因。网络故障诊断专家系统在实际中应用较为广泛,但是存在
随着计算机技术和网络技术的飞速发展,特别是我国信息化建设的日益普及,电子政务应用日益广泛。电子政务是一个将政府工作信息化、网络化、公开化、标准化的系统工程,涉及到国家
随着Internet的普及和发展,图像数据飞速膨胀,使得如何有效地检索所需要的图像数据已成为当前图像应用领域的一个研究热点,为了便于图像的检索和识别,基于内容的图像检索技术应运
目前多核处理器已成为服务器和桌面的主流,不久将广泛地运用在高端嵌入式领域。以往嵌入式系统的实时性研究主要集中于任务调度和切换、实时任务的通信和容错性等,未涉及到实时
随着互联网的不断发展,数据量日益增大,问答系统在我们的生活中发挥了越来越重要的作用。当前问答系统知识库主要是人工构建为主,耗费大量的人力物力,影响问答系统从单一领域