论文部分内容阅读
作为一种能够对不精确、不完备、不一致等不确定性的信息进行有效分析和处理的数据分析工具,粗糙集在知识发现、机器学习、模式识别、决策支持、预测建模和故障诊断等领域已得到了广泛的应用。经典的Pawlak粗糙集只适用于处理离散型数据,无法直接处理现实应用中常见的数值型数据。为此,基于Pawlak粗糙集,邻域粗糙集通过引入邻域粒化和粗糙逼近的概念,可以有效地处理这两种类型的数据。知识约简是粗糙集的主要应用之一。知识约简的目标是保持原有知识表达能力,并且删除掉知识表达系统中的冗余知识。基于粗糙集的知识约简研究主要是针对决策表和信息表的属性约简算法。此两类算法分别对应分类和聚类任务。本文基于邻域粗糙集,针对决策表和信息表的属性约简进行了如下研究:(1)基于邻域粗糙集的决策表属性约简研究:Ⅰ.对基于邻域粗糙集的决策表属性约简算法而言,正域计算是保证其有效性的重要依据,也是影响其时间开销的最主要部分。在现有的正域计算中,通常存在着大量同类别样本间的度量计算。为此,首先证明在邻域粗糙集的正域计算中,同类别样本间的度量计算对正域计算是无贡献的,而后据此提出了基于样本类别的正域计算及属性约简算法。实验结果表明,该算法有效且更快速,且更适用于样本类别数较少的数据集。Ⅱ.邻域粗糙集的正域计算沿用了Pawlak粗糙集中的包含关系,导致其容错性不佳。为此,首先引用最小风险决策规则对正域决策的风险进行评估,而后提出了一种基于容错改进的正域计算及属性约简算法。实验结果表明,该算法得到的属性约简集更好,且分类算法据此属性约简集对数据集进行分类的精度更高。(2)基于邻域粗糙集的信息表属性约简研究:为了设计一种信息表的属性约简算法,依据Pawlak粗糙集的信息表属性约简标准,而后提出一种基于邻域粗糙集的信息表属性约简标准及属性约简算法。实验结果表明,该算法所得属性约简集中的属性个数较多,聚类算法据此属性约简集对数据集进行聚类的精度较高。