论文部分内容阅读
粗糙集理论作为基于粒化机理的数据建模中的一个重要模型,在智能信息研究领域中有着广泛的应用,通常可用来进行特征选择和规则提取.复杂数据的信息粒化是粗糙集数据建模的前提,是信息预处理的关键步骤.聚类分析是数据挖掘中一类重要的无监督学习方法,目前已被有效应用于复杂数据的信息粒化中,并已经取得了可观的研究成果.目前,基于聚类分析,针对符号型数据的信息粒化方法也已经成为一个重要的研究热点,引起了众多研究者的关注.但是,如何把现有的高效稳定的数值型聚类分析技术应用到符号型数据中,获取更为有效可行的面向符号型数据的信息粒化方法,仍是聚类分析中一类亟待解决的热点问题.
粗糙集理论中,概念近似和属性约简是其两个关键问题.随着近年来网络技术、数据库技术及传感器技术的飞速发展,包含多种数据类型的复杂数据从各种信息源上持续不断地产生,这使得数据集规模呈指数级增长,不仅体现在数据集中对象数量的增长,也体现在特征数量的增长上.海量高维的大规模数据给传统的粗糙集理论框架带来了巨大挑战,如大数据中标注的极弱监督性、算法的计算低效性、约简的过度拟合性等.因此,迫切需要发展可适应大数据背景的新的粗糙建模理论与方法.
本文针对采用传统粗糙集理论框架解决实际任务时遇到的问题进行了详细分析,从信息粒化、特征选择、数据建模等方面进行了深入研究,并提出相应的解决方案.通过在UCI数据集和人工数据集上的大量实验,验证了所提出解决方案的有效性和高效性.本文主要的研究成果如下:
一、针对复杂数据的信息粒化方法进行了深入研究,揭示了符号型数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础.
提出了一种基于空间结构的符号数据仿射传播算法(SBAP).现有算法中k-modes型算法虽然能处理符号型数据聚类问题,但是由于这些算法未能利用到符号型数据的空间结构信息,聚类性能方面略有不足.而现有的数值型聚类算法虽然稳定有效,但是应用在符号数据上时聚类效果很不理想.AffinityPropagation(AP)聚类算法就是一种稳定有效的数值数据聚类算法,其聚类结果依赖于任意两个样本之间的初始相似性测度.为了能把经典AP算法迁移到符号型数据聚类问题上来,本文引入了一种新的基于空间结构的符号型数据表示方法,这种方法可以把原始符号型数据映射到一个新维度的欧氏空间上,得到一个包含原始符号型数据集结构特征的数值型数据集.通过在符号型UCI数据集上进行大量实验,结果表明,SBAP算法能够对符号型数据进行高效聚类,其聚类性能相比于k-modes型算法有显著提高.
二、针对特征选择方法进行深入研究,揭示粗糙集理论中特征选择机理,找出影响特征选择计算性能的关键因素,提出了新的加速框架及算法.
提出了一种基于正向近似的特征选择加速框架,可用于加速启发式属性约简算法.基于该框架,提出了一种改进的启发式特征选择算法(FSPA).对粗糙集理论中的几种典型启发式属性约简算法进行了改进.传统的启发式属性约简算法是在固定的论域中进行重要属性的选取,而被加速的属性约简算法会随着属性的增加而删除协调的数据部分,不断减少论域,从而降低了计算耗时,提高了计算效率.在UCI数据集上的实验研究表明,改进后的算法明显减少了属性约简的计算时间.理论分析和实验结果进一步表明,基于正向近似的属性约简是一种有效的加速器,可以高效地获得属性约简.并且随着数据集规模的增大,加速算法的高效性更明显.因此,上述加速算法为高效地处理海量高维的大数据提供了可以借鉴的新途径.
三、针对大数据背景下粗糙集理论框架面临的挑战进行深入研究,探索了采用粗糙集理论框架计算近似及约简时的机理,找出了影响其计算性能的关键因素,提出了新的粗糙集理论框架及算法.
为了解决基于传统粗糙集理论在处理极弱标注大数据时所面临的挑战,针对如何对符号型极弱标注大数据进行高效处理的问题,发展了一种称为局部粗糙集(LRS)理论框架,针对如何对数值型极弱标注大数据进行高效处理的问题,拓展了一种称为局部邻域粗糙集(LNRS)理论框架,并对两个理论框架中相应的重要性质进行了分析和证明.基于以上两个框架,提出了用于计算目标概念/决策的局部下近似的算法和用于搜索目标概念/决策的局部属性约简的算法,这些算法均为线性的时间复杂度.文中使用UCI数据集和人工数据集对上述算法的性能进行了验证.实验结果表明,提出的局部粗糙集模型及局部邻域粗糙集模型中的算法显著提高了传统粗糙集的计算性能.尤其是在对极弱标注大数据处理时,计算性能的提高变得更为明显.因此,局部粗糙集与局部邻域粗糙集是对符号型及数值型极弱标注大数据进行粗糙数据分析的高效可行的解决方案,可为大数据挖掘提供新的理论分析和支撑.
综上所述,本文从信息粒化、特征选择、数据建模等方面进行了深入研究,发展了新的理论框架,设计了新的数据模型,并提出了新的算法.大量实验证明,新的解决方案中所有算法的计算性能均明显优于传统粗糙集中的相应算法.尤其对大规模数据集,算法时间复杂度可近似降为线性的.上述研究成果丰富了粗糙集理论中的模型与方法,有望加快相应领域的研究进展.
粗糙集理论中,概念近似和属性约简是其两个关键问题.随着近年来网络技术、数据库技术及传感器技术的飞速发展,包含多种数据类型的复杂数据从各种信息源上持续不断地产生,这使得数据集规模呈指数级增长,不仅体现在数据集中对象数量的增长,也体现在特征数量的增长上.海量高维的大规模数据给传统的粗糙集理论框架带来了巨大挑战,如大数据中标注的极弱监督性、算法的计算低效性、约简的过度拟合性等.因此,迫切需要发展可适应大数据背景的新的粗糙建模理论与方法.
本文针对采用传统粗糙集理论框架解决实际任务时遇到的问题进行了详细分析,从信息粒化、特征选择、数据建模等方面进行了深入研究,并提出相应的解决方案.通过在UCI数据集和人工数据集上的大量实验,验证了所提出解决方案的有效性和高效性.本文主要的研究成果如下:
一、针对复杂数据的信息粒化方法进行了深入研究,揭示了符号型数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础.
提出了一种基于空间结构的符号数据仿射传播算法(SBAP).现有算法中k-modes型算法虽然能处理符号型数据聚类问题,但是由于这些算法未能利用到符号型数据的空间结构信息,聚类性能方面略有不足.而现有的数值型聚类算法虽然稳定有效,但是应用在符号数据上时聚类效果很不理想.AffinityPropagation(AP)聚类算法就是一种稳定有效的数值数据聚类算法,其聚类结果依赖于任意两个样本之间的初始相似性测度.为了能把经典AP算法迁移到符号型数据聚类问题上来,本文引入了一种新的基于空间结构的符号型数据表示方法,这种方法可以把原始符号型数据映射到一个新维度的欧氏空间上,得到一个包含原始符号型数据集结构特征的数值型数据集.通过在符号型UCI数据集上进行大量实验,结果表明,SBAP算法能够对符号型数据进行高效聚类,其聚类性能相比于k-modes型算法有显著提高.
二、针对特征选择方法进行深入研究,揭示粗糙集理论中特征选择机理,找出影响特征选择计算性能的关键因素,提出了新的加速框架及算法.
提出了一种基于正向近似的特征选择加速框架,可用于加速启发式属性约简算法.基于该框架,提出了一种改进的启发式特征选择算法(FSPA).对粗糙集理论中的几种典型启发式属性约简算法进行了改进.传统的启发式属性约简算法是在固定的论域中进行重要属性的选取,而被加速的属性约简算法会随着属性的增加而删除协调的数据部分,不断减少论域,从而降低了计算耗时,提高了计算效率.在UCI数据集上的实验研究表明,改进后的算法明显减少了属性约简的计算时间.理论分析和实验结果进一步表明,基于正向近似的属性约简是一种有效的加速器,可以高效地获得属性约简.并且随着数据集规模的增大,加速算法的高效性更明显.因此,上述加速算法为高效地处理海量高维的大数据提供了可以借鉴的新途径.
三、针对大数据背景下粗糙集理论框架面临的挑战进行深入研究,探索了采用粗糙集理论框架计算近似及约简时的机理,找出了影响其计算性能的关键因素,提出了新的粗糙集理论框架及算法.
为了解决基于传统粗糙集理论在处理极弱标注大数据时所面临的挑战,针对如何对符号型极弱标注大数据进行高效处理的问题,发展了一种称为局部粗糙集(LRS)理论框架,针对如何对数值型极弱标注大数据进行高效处理的问题,拓展了一种称为局部邻域粗糙集(LNRS)理论框架,并对两个理论框架中相应的重要性质进行了分析和证明.基于以上两个框架,提出了用于计算目标概念/决策的局部下近似的算法和用于搜索目标概念/决策的局部属性约简的算法,这些算法均为线性的时间复杂度.文中使用UCI数据集和人工数据集对上述算法的性能进行了验证.实验结果表明,提出的局部粗糙集模型及局部邻域粗糙集模型中的算法显著提高了传统粗糙集的计算性能.尤其是在对极弱标注大数据处理时,计算性能的提高变得更为明显.因此,局部粗糙集与局部邻域粗糙集是对符号型及数值型极弱标注大数据进行粗糙数据分析的高效可行的解决方案,可为大数据挖掘提供新的理论分析和支撑.
综上所述,本文从信息粒化、特征选择、数据建模等方面进行了深入研究,发展了新的理论框架,设计了新的数据模型,并提出了新的算法.大量实验证明,新的解决方案中所有算法的计算性能均明显优于传统粗糙集中的相应算法.尤其对大规模数据集,算法时间复杂度可近似降为线性的.上述研究成果丰富了粗糙集理论中的模型与方法,有望加快相应领域的研究进展.