论文部分内容阅读
随着信息技术的飞速发展,使得人们在采集数据、存储数据的方面能力得到了明显提高。在许多应用领域中都积累了大量数据,对这些数据进行分析并从中挖掘潜在有用的知识,已成为研究人员重点关注的研究内容。粗糙集理论作为一种处理模糊、不确定、不完备数据的有效处理工具,其优势是仅需要利用数据本身的信息,而不需要借助其他先验的知识和附加信息,就能对数据进行分析,从中发现隐在的、有价值的知识,揭示潜在的规律。目前粗糙集理论已在数据挖掘、机器学习、模式识别和知识发现等领域得到了广泛应用。在粗糙集理论中,属性约简和知识获取是研究人员研究的主要热点问题。属性约简是在保持属性区分能力不变的情况下,删除数据中无关或不重要的属性,而知识获取是在属性约简的基础上获取规则或知识。由于目前许多应用领域中的数据往往是动态的,当数据量增长到一定程度时,从原数据集中获取的属性约简和知识获取结果不再适用,需对数据进行处理和分析。若使用静态方法处理时,将导致算法的时间复杂度上升,且较难发现数据的变化规律。因此,围绕动态数据研究基于粗糙集理论的动态数据挖掘理论和方法具有重要的理论意义和应用前景。本文以粗糙集为工具,以数据挖掘为目的,针对动态决策表和动态不完备决策表的属性约简和知识获取模型与算法开展了较深入的分析和研究。本文的主要研究成果和创新概况如下:1)针对动态决策表,首先构造一种基于信息粒度的动态属性约简模型,详细分析了当决策表中出现新属性动态增加时,信息粒度的增量式计算方法:在此基础上,利用信息粒度作为启发信息设计了一种动态求解属性约简算法,该算法能有效利用原决策表的属性约简结果和信息粒度,有效地降低算法的计算复杂度,并使得约简结果具有较好的传承性;最后通过算例分析和实验比较进一步验证了算法的可行性和有效性。2)由于不完备决策表中存在缺失数据,经典的粗糙集模型难以适用,特别是不完备决策表中的数据发生动态变化时。为此,针对动态不完备决策表,构建基于相容关系的信息粒度模型;分析当不完备决策表中对象集动态增加时,信息粒度模型的增量式更新计算方法:同时结合原始不完备决策表的信息粒度和属性约简结果,提出了一种基于信息粒度的属性约简增量式更新方法,有效地提高了属性约简的计算效率。3)针对决策表下对象的动态变化,研究如何高效地从动态决策表中获取知识或规则。首先,分析完备决策表中单个的对象增加和删除时,基于正区域下知识的近似分类质量的动态更新机制,通过计算新等价类下对于决策类的置信度,对于满足阈值要求的规则进行动态增加和删除,在此基础上,提出了一种增量式知识获取更新方法。然后,为避免将多个对象的动态变化看成单个对象的累积变化,当决策表中存在大量对象动态增加和删除时,构建基于正区域下知识近似分类质量的动态更新机制,设计了一种决策表的动态知识获取算法。4)由于数据获取技术或者人为丢失数据等原因,经常导致数据经常出现不完备数据。针对不完备数据中对象的增加和删除情况,在近似分类质量模型下研究动态知识获取方法。首先,针对不完备数据中对象的增加,分析正区域的动态变化情况和近似分类质量的更新计算方法;然后,针对不完备数据中对象的删除,分析了正区域的动态变化情况和近似分类质量的更新计算方法;在此基础上,提出对象同时增加和删除时有效的动态知识获取方法,最后,通过实验结果验证提出方法的有效性。5)以基于粗糙集的属性度量为视角,提出了一种基于混合度量机制的属性评价方法,该方法从不同的信息粒度来分析属性的重要性,并在混合度量机制中根据数据分布特点引入了参数权重因子调节属性重要性;在此基础上,构造一种基于粗糙集属性度量机制的集成分类器。并通过实验结果和分析表明,提出的方法能有效地降低数据的属性维度,相比较于单个属性度量准则,分类器具有更好的分类性能。综上,本文针对数据中对象变化和属性变化所引起属性约简和知识获取的动态更新开展了较深入研究,较好地解决了许多静态算法无法描述数据的变化规律和算法计算效率不高等问题,从而更好地适应实际环境下数据的分析和挖掘。