论文部分内容阅读
信息技术的高速发展加速了信息全球化的到来,以信息手段增强本身的竞争优势已成为许多企业采取的手段,因此在经营过程中积累了大量的数据,如何处理分析这些数据并从中得到有价值的信息是数据挖掘中研究的一个重要的课题。粗糙集理论是数据挖掘中的一个重要工具,主要处理具有不确定性和不完备的数据知识。该理论是由Pawlak提出的,经典粗糙集理论的核心概念是基于等价关系的上近似和下近似,在这两个概念的基础上可以将信息系统潜在的知识表示成决策规则的形式。由于等价关系的约束条件过于苛刻,限制了经典粗糙集理论在复杂的信息系统中的应用,因此许多研究者在等价关系的基础上将约束条件放宽,扩展为相容关系、相似关系和一般的二元关系。信息熵概念的提出是为了度量事件的不确定性程度,其本质是使用确切的数值来度量知识的不确定性。因此,通过建立粗糙集理论与信息熵之间的关系,必然可以对知识的粗糙性做出更精确的度量,从而更加精确的对粗糙集进行属性约简,得到有用的规则。很多研究者在把信息熵理论应用到经典粗糙集的知识粗糙度的度量及属性约简方面做了大量的工作。近年来,也有一部分研究者将等价关系扩展成为一般的二元关系,并将信息熵理论应用其中。但是基于一般二元关系的信息熵的应用还只是停留在对于知识的粗糙性的研究层面上,因此本文在前人的研究成果的基础上,将信息熵理论应用到了一般二元关系下粗糙集的属性约简上面,为这一理论应用拓宽了研究的道路。本文在上述研究的基础上,提出了基于一般二元关系的知识的条件信息熵的定义及性质,在基于等价关系的条件信息熵的概念描述的基础上证明了相关的一些定理。利用一般二元关系下知识的条件信息熵的特点,在现有的约简算法的基础上,提出了一种粗糙集属性约简的算法并进行了改进,最后将算法应用到了电厂数据的处理中,证实了改进后算法的先进性。