论文部分内容阅读
随着数据挖掘技术的发展,人们对时态信息的关注日益提高。时态数据库中既反映能被处理事件的历史性信息又能体现系统中元事件的时态信息的双时态数据库日益受到人们的关注。随着双时态数据库的不断发展,双时态数据库的模型、索引等研究趋于成熟。
通常情况下,表达一条记录的若干属性并非全部与时间相关,而越来越多的研究、数据分析的热点也恰恰集中在那些时间相关的属性上。传统的双时态关系模型虽然涉及到有效时间和事务时间,但其有效时间和事务时间约定在整条记录上,不能专一地约束某一属性,这样,使用户无法区分哪些属性与时间相关、哪些无关,又造成在属性随时间变化时,数据库的变化以记录为最小元,不利于操作效率的提高;与此同时,传统模型之上的一些常见的某些数据分析工作也变得复杂、不够直观,如:根据某一属性在某一特定时间段内的变化规律分析出一些利于决策的结论等。
基于以上原因,本文提出一种改进的双时态关系模型。该双时态关系模型基于时间相关属性,将以往的双时态关系分为主体表和实例表两个部分并通过引用一个类似于对象编号的主体标号属性“hostNo”将二者结合起来,从而实现了时间相关属性与时间无关属性的分离,使得数据分析等着眼于时间相关属性的工作更具针对性,同时,在区分属性的基础上加快了数据的插入和修改,尽可能地减少了查询中连接操作的频度。此外,文章详细地阐述了适合模型的查找、更新操作,具体包括:添加新主体,修改属性,删除主体等。
为验证模型在数据挖掘等数据分析工作中的优越性,本文以时态关联规则挖掘为具体应用,在描述关联规则的基本概念和经典的Apriori算法模型的基础上,结合改进的模型,针对有效时间区间,给出合适的时间区间扩展及归并方法及特殊情况下扩展因子与区间端点变量的处理办法,从而提出一种基于该模型的时态关联规则挖掘算法,并根据一组具体的实验数据集及相关的操作步骤,实验证明了模型在该应用领域的优越性。