论文部分内容阅读
粗糙集理论是由Paw1ak教授于20世纪80年代初提出的一种用于处理不确定性和含糊性知识的数学工具,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它无需提供相关数据集合以外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,即知识。数据挖掘是20世纪90年代中期兴起的一项新技术,是知识发现过程中的关键步骤,它是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。粗集理论由于其本身具有的一些特点,比如它是数据驱动的方法、无需任何辅助信息,易于处理离散数据并容易与关系型数据库相融和等,因此特别适合于知识发现和数据挖掘的任务。
本文首先介绍了标准粗糙集模型以及基于标准粗糙集模型的粗糙规则集。在粗糙集理论中,粗糙规则集合的不确定性一般是由近似度来度量的,但是以近似度作为粗糙规则集不确定性的量度,仅反映了规则集合的一致性,而未考虑其随机性。鉴于此,我们引进了规则准确度和覆盖度的概念,规则的准确度主要反映的是规则一致性(或不一致性)的情况,而覆盖度反映的是规则随机性的情况。在数据挖掘过程中,我们希望得到既有高准确度又有高覆盖度的规则。进而本文讨论了一类基于信息熵的不确定性量度问题,以信息熵Hdet作为规则不确定性量度,可以使不一致性和随机性这两种不确定性均在一定程度上得到消除,从而可使所获得的规则集具有更好的分类、预测性能。
其次,本文还深入研究了属性化简问题,属性化简是粗集数据挖掘中的核心问题之一,它包括属性约简、属性值约简及连续属性离散化等问题。属性化简的问题是NP-Hard问题,其算法的效率决定了数据挖掘算法的效率。关于属性约简本文提出了几种方法,其中有基于决策属性支持度的启发式约简算法,带有惩罚函数的遗传约简算法,以及基于区分函数与强等价集的属性约简算法等,这些算法的提出均以提高算法效率和改善收敛性为主要目标。另外,本文还提出了改进的属性值约简算法和连续属性离散化方法,用本文所提出的属性值约简算法会使最终的值约简结果得到更进一步的简化,从而使决策规则更加简洁。若将属性约简问题看成是决策表在横向上的化简,那么连续属性离散化即可看成是决策表在纵向上的化简,本文提出的连续属性离散化方法会使划分后的决策表既保持原始分类能力不变又具备较高的约简效率。
标准粗糙集模型在处理某些实际问题过程中经常表现出一定的局限性,如对数据噪声过于敏感,对连续取值或属性值过多的情况不易处理等。针对这些局限,出现了不少标准粗糙集的扩展模型,可变精度粗糙集模型就是其中之一,它通过预置近似精度因子,放松了标准粗糙集的严格的边界定义,从而使模型具有抗噪声的能力。受变精度粗糙集模型的启发,本文构造了变精度粗糙规则集,并给出了其不确定性的信息熵量度HVPRS,HVPRS将不一致性较弱的规则等同于一致性规则,对数据中的少量不一致性忽略不计,克服了标准粗糙规则集对数据噪声过于敏感的缺点,具有一定的容错能力。
最后,本文的研究工作结合了辽宁电力有限公司管理信息系统(LNDLMIS)的开发、设计过程,对于数据仓库环境下的新型电力营销辅助决策支持系统给出了总体设计思想和实现的手段,并结合客户信用分析主题详细论述了粗集数据挖掘方法在客户信用分析中的具体应用过程。通过本文的分析方法,可使客户信用评价问题,不仅面向简单处理层面,而且面向规则获取和知识发现的层面,从而能够更加有效的完成决策支持的任务。