论文部分内容阅读
为有效处理大量数据并获取有意义的知识,数据挖掘已经成为一个研究热点。数据挖掘所得到的知识能够为决策支持提供依据。粗糙集理论作为处理含糊性和不确定性的一种数学工具,已经成为数据挖掘领域的重要方法。 本论文主要针对现存粗糙集方法缺乏对分布式存储数据的代价较小的有效处理机制以及在规则约简过程中决策表决策支持能力的损失等问题进行了研究工作,提出了解决方法。 论文针对现存粗糙集方法缺乏对分布式存储数据的代价较小的处理机制问题,提出了元信息方法。元信息方法将传统的信息系统概念推广为分布式信息系统,以便于分布式数据环境的数据描述,并提出元信息的概念以清晰精练地描述分布式信息系统及其子系统。元信息在等价类层面上删除了冗余数据,并以类矩阵简练地描述条件类与决策类的包含关系,这不仅使元信息集成和维护的代价可以大大低于原始数据的集成和维护,而且能够有效提高属性相对约简、规则获取等粗糙集方法的性能。元信息方法包括元信息生成与维护方法以及基于元信息的粗糙集方法两部分内容。 元信息生成方法主要用于分布式信息系统的各子系统的元信息生成,以及将这些元信息集成为分布式信息系统的元信息的方法。元信息维护方法则用于维护因底层各信息子系统数据变化而引起的元信息变化。元信息维护方法是一种动态维护方法,它通过调整元信息而不是重构元信息来反映底层原始数据变化,因而降低了开销,并且元信息可以保存以备后用。由于元信息的简洁紧凑特点,元信息的集成与维护的代价一般远小于原始数据的集成。 基于元信息的粗糙集方法包括基于元信息的属性相对约简方法和基于元信息的规则获取方法。前者可用于获取信息系统条件属性的相对约简,而后者则可用于信息系统的决策规则集的获取。由于元信息能够精练地描述信息系统,基于元信息的粗糙集方法的时间复杂度一般远小于直接操作原始数据本身。另外,由于元信息可以保存并能动态维护,基于元信息的粗糙集方法可以共用相同的数据预处理过程(即元信息生成与维护),从而减少了数据预处理时间,提高了效率。 论文还针对现存粗糙集方法在规则约简过程中决策表的决策支持能力损失问题,提出粗糙决策支持方法以弥补现存方法的不足。该方法包括基于条件向量的决策支持方法、附加条件向量确定方法以及条件向量约简方法。 基于条件向量的决策支持方法能够通过条件向量或相似条件向量,为决策者提供某条件组合的推荐决策,并给出决策强度、支持度等决策信息,从而达到决策支持的目的。 附加条件向量确定方法则通过获取附加条件向量(即附加的条件)的方式,来提高条件向量对决策向量的决策强度。该方法适用于决策者对决策强度不满意的情况。 条件向量约简方法是在不牺牲决策强度的前提下,剔除多余的条件组合(即子条件向量),并得到条件向量的约简。经过约简以后的条件向量能够为决策者提供更好的选择。 粗糙决策支持方法能够充分挖掘诀策表本身潜在的决策支持能力,以提供强有力的决策支持,并在决策支持过程中强调决策者的参与,具有较大的灵活性。粗糙决策方法能够与传统方法组合成优势互补的混合决策支持模式。