论文部分内容阅读
特征选择和特征提取是数据挖掘、机器学习和人工智能的重要研究主题,旨在从海量数据中挖掘出潜在的有效的信息.信息表(或称信息系统)和决策表(或称决策系统)是海量数据的具体体现,是特征选择的两种主要研究对象.决策系统是信息系统的细化和延伸.决策系统约简的目的是在保持决策系统的分类能力不变的条件下,去掉一些无关的和冗余的数据,获得紧凑型数据.粗糙集理论是一种基于集合论的不确定信息分析与处理的数学工具,可有效地分析和处理具有不精确、不一致、不完整等不确定性的信息与知识.基于粗糙集的决策系统约简不需要任何先验知识,可有效地消除决策系统中的冗余知识,获得集约的规则集,提高决策系统的应用效率.因此,研究粗糙集理论及其在特征选择中的应用有着重要的理论意义和实用价值.本文从以下几个方面对决策系统属性约简和属性值约简展开研究和探索:(1)为了解决基于依赖度的属性约简方法会得到空集的问题,提出了新的属性约简方法—基于条件知识粒度的属性约简.实例表明它有效地反映了属性的重要程度.(2)针对非协调决策系统上的属性约简,通过粗交流映射,建立了协调、非协调决策系统属性约简之间的联系,将非协调决策系统上的属性约简问题转化为协调决策系统的属性约简问题,具有重要的意义.通过UCI标准数据集验证了该方法的有效性和实用性.(3)经典的属性约简方法只考虑了决策系统的正域信息,忽略了负域和边界域信息.将直觉模糊集引入到不完备决策系统中,根据正域、负域和边界域之间的关系定义了决策系统上的直觉模糊集的肯定隶属函数和否定隶属函数,提出了决策系统的相对相似约简方法.相对相似约简是一种更为广泛的约简形式,相对正域约简、相对负域约简和相对双向域约简是它的特例.实验表明,选择适当的直觉模糊集间的相似度,会大大提高决策系统的分类精度.(4)系统地分析了特征选择和属性约简之间的关系,特别地研究了启发式优化算法的局部最优解、全局最优解与约简之间的关系,指出基于启发式优化算法的特征选择结果(称为近似约简)未必是决策系统的相对约简(若不是,则称为伪约简),从而提出了具有序结构的属性约简方法解决了该问题.进一步地,为了解决伪约简和非协调决策系统对经典属性值约简方法带来的冗余和错误问题,提出了新的属性值约简方法.实例验证了该方法的可行性和有效性.