论文部分内容阅读
随着新兴信息技术和应用模式的快速产生与发展,现代信息社会已经迈入大数据时代。如何从蕴含大信息的大数据中进行高效实时的数据挖掘与知识发现,已成为当前信息科学领域的核心研究问题之一。大数据环境中,数据常常表现为非真实性,不完备性的特点,虚假数据、缺失数据的存在给数据分析与建模质量带来了不确定的风险。另一方面,大数据的采集与分析是一个不断优化升级的动态过程,数据随时间的推移呈现出快速增长的变化趋势,数据的激增使得大数据环境中信息处理的时效性要求越来越高。粒计算是计算智能领域中一种新的用于处理不确定、不精确、不完整信息的计算范式。通过复杂问题空间中合适粒度的选择以及不同粒层之间的相互转化,粒计算为大规模海量数据挖掘提供了一种基于信息粒化的,由粗到细、不断求精的近似解决方案。粗糙集理论通过利用信息的已知概念对未知目标概念进行近似刻画,是不确定性问题近似计算的一种重要粒计算模型。本文以粒计算思想为指导,以粗糙集理论为研究工具,以增量学习技术为手段,针对动态不完备数据中的高效知识获取方法进行了系统性的研究,主要取得了以下研究成果:(1)针对同时含有遗漏型和缺席型缺失值的不完备信息系统,提出了面向数据对象变化的动态概率粗糙集模型。首先分析了数据对象的动态插入和删除,知识粒度和目标决策概念的不同更新模式。然后探讨了概率粗糙集模型中条件概率的增量估计策略。利用条件概率的快速增量求解,提出了基于增量数据的概率粗糙近似集动态更新原理,进而分别设计不完备信息系统中数据对象动态插入、删除时,概率粗糙近似集的增量更新算法。(2)针对数据对象动态变化的集值决策系统,研究了基于优势关系粗糙集模型的近似集增量更新问题。根据决策系统中新增或待删数据对象的所有可能更新情况,针对决策分类中不同目标决策类,分别探讨了决策类向上联集、向下联集的近似集动态变化原理,并在此基础上提出了集值决策系统中基于优势关系粗糙集模型的近似集增量更新算法。(3)构造了基于集值信息系统的优势关系矩阵,用于表示对象属性值之间的优劣关系。借助于信息系统中数据对象集合的布尔列矩阵表示思想,并运用矩阵之间的乘积运算,提出了集值信息系统中基于粗糙集理论的上、下近似集矩阵构造方法。考虑到信息系统中属性特征的动态变化问题,首先分析了优势关系矩阵中元素随属性特征变化的快速更新原理,进而实现近似集矩阵求解问题中乘积矩阵、诱导矩阵的增量更新机制。最后提出了集值信息系统中属性特征动态变化时基于矩阵运算的近似集增量更新算法,该算法仅通过对优势关系矩阵中局部元素的更新即可实现近似集的快速求解。(4)考虑到集值决策系统中决策对象的数据取值会随着决策评价标准、判断指标的不断更改与完善而呈现出动态变化的问题,建立了面向数据取值变化的动态粗糙集模型。根据数据取值的动态添加和删除,首先分析了集值决策系统中数据对象之间优、劣关系的动态更新原理,基于此给出了优势信息粒和劣势信息粒的增量更新策略。最后,分别提出了集值决策系统中数据取值动态添加、删除时基于粗糙集理论的决策类近似集增量更新算法。本文基于粒计算思想,利用增量学习技术,系统分析了动态不完备数据中基于粗糙集理论的高效知识获取方法,给出的若干增量更新原理为动态数据处理与分析提供了新的研究方法和理论支撑,在UCI公共数据集和人工数据集上的相关仿真实验也进一步验证了所提出的增量算法的有效性和高效性。因此,本文研究工作拓展了粒计算与粗糙集理论及应用的研究范畴,丰富了动态数据挖掘方法的研究手段,为大数据环境中的知识发现问题提供了新的处理技巧和研究视角。