论文部分内容阅读
传统规则挖掘处理的对象是某个时间点上静态的信息系统,因而获得的知识也是静态的。实际上信息系统通常表现为易变性和过程性,为了刻画某时间段内信息系统的变化趋势和变化规则,本文扩展了动态信息系统模型,提出动态信息系统变换模型和形式化表示,包括差异信息系统和趋势信息系统模型,运用粗糙集方法与概念格方法挖掘用户感兴趣的动态决策规则。本文主要工作包括以下几个方面:1.提出动态信息系统变换模型和变换规则的形式化描述。本文扩展了动态信息系统模型,提出基于观察点的动态信息系统变换模型,建立面向信息系统变化趋势的类划分机制和相应的语义,对条件属性变迁与决策属性变迁的相关性进行研究,并给出面向时间序列的变换规则的形式化描述。以上研究工作扩展了静态信息系统传统分类方法的应用模式,使之能在基于时间序列的动态决策信息系统变化过程中发挥作用,以便挖掘决策信息系统变换过程中的变换规则。2.给出差异信息系统的定义,并以此提出决策规则挖掘算法DI_FindRules。差异信息系统是由两不同时间点的决策表建立的,它描述了决策表之间的条件属性变化量与决策属性变化趋势之间的关系:并提出了差异信息系统上的一种启发式的决策规则挖掘算法(DI_FindRules算法),与传统的粗糙集决策规则挖掘算法相比,DI_FindRules算法试图生成最重要的约简,而不生成全部可能的约简,从而提高了规则挖掘的效率。3.构造对象(集)趋势决策表,继而提出趋势概念格的概念。提出了基于时间序列而建立的特定对象(集)的趋势信息系统(或趋势决策表),它描述了在决策表中单个对象(集)随时间的变化属性值的变化趋势。论文扩展了概念格理论,提出了趋势概念格的概念,并给出了高效的趋势概念格建格算法(Create_DecisionLattice算法)、与趋势有关的决策规则挖掘算法(FindRules_DecisionLattice算法)。与传统的建格算法比较,由于建立趋势概念格的目的是提取对象相关的趋势决策规则,所以建格算法做了改进,省略与决策规则无关的概念的构建过程,从而在提取相同决策规则的前提下,本文采用的算法不仅减少了概念的数目,而且提高了规则挖掘的效率。4.分析了差异信息系统在实际应用中存在的问题。比如:抗噪能力差、规则数目多、出现大量新的不一致,提出了RSTT算法,挖掘出所有满足支持度与置信度阈值要求的决策规则。5.从上市公司的股票交易日的数据入手,抽取了对股票价格影响较大、反映上市公司财务经营状况的多个属性,构建股票交易的记录决策表。由多个时间点上的股票交易记录决策表,构成动态信息系统的状态序列,便可以利用动态信息系统决策规则挖掘模型对其进行探索性研究。通过与Lindig算法的分析与比较,本文的建格算法Create_DecisionLattice,决策规则挖掘算法FindRules_DecisionLattice,更加高效,挖掘出的规则更加简洁、有用。