论文部分内容阅读
大数据中的信息系统是近几年信息领域研究的主要对象之一,因其数据量巨大的特点使得传统方法难以快速,实时的响应用户的计算要求.同时,在信息系统中进行知识发现,规则提取是实现人工智能,数据挖掘,决策预测的重要步骤.粗糙集和模糊集作为解决不确定性问题的两大理论工具已在其中取得了一定的成果,然而现实生活中多样化的数据类型,复杂的关系结构,频繁快速的信息更新都迫使这些理论必须进一步扩展才能满足要求.覆盖粗糙集作为Pawlak粗糙集的扩展之一,当信息系统中有缺失值时仍能保持系统中知识的完整性,从而在现实应用中广泛被使用,但面对大数据时如何快速计算上、下近似和约简仍然是棘手的问题.信息系统的同态在保持了两个信息系统之间等价特性的同时,可获得一个相对原系统较小的镜像系统,这为解决大数据下信息系统中的计算问题提供了一个新思路.本文以覆盖粗糙集和信息系统同态为理论依据,结合信息系统动态变化的特性为背景,使用增量算法为工具,针对大数据下信息系统中的知识发现和约简问题展开了研究,并取得了以下成果:(1)系统的分析了覆盖粗糙集中多个上、下近似算子,总结了基于集合理论的各算子之间的关系,给出了基于特征矩阵的两类上、下近似算子的定义及运算规则.分别给出了基于集合理论和特征矩阵计算第二型、第六型上、下近似的非增量算法.系统分析了覆盖信息系统的动态变化特性,给出了几种基本的动态覆盖近似空间.(2)研究了动态覆盖近似空间中属性值变化时的动态特性,分析了特征矩阵相应的变化情况,给出了快速计算上、下近似的方法并设计了相应的增量算法.通过程序随机生成的覆盖近似空间对算法进行了验证,实验结果证明了增量算法相对非增量算法有较好的效率.给出了一个实例说明了快速计算上、下近似给约简带来的便利.(3)研究了对象增加,减少时对覆盖近似空间的影响,给出了特征矩阵的变化情况及快速计算上、下近似的方法.为更好的与其他近似算子对比,进一步给出了基于集合理论和基于特征矩阵第二型、第六型上、下近似的增量算法.采用UCI和随机数据集两种方式,设计了数值实验进行了对比分析,不仅给出了基于特征矩阵的非增量算法优于基于集合理论的非增量算法的实验结果,还进一步证明了基于特征矩阵的增量算法是相对于其他算法来说是最优的.(4)基于信息系统同态,在模糊关系信息系统中进一步研究了相容函数的性质,给出了最大相容函数的定义与其他相容函数之间的关系,并设计了构建同态的非增量算法.分析了信息系统动态变化时当增加或删除模糊关系后同态的变化特性,给出了利用原同态快速构建新同态的方法,并设计了相应的增量算法来实现动态压缩.实验采用了随机的大数据集对算法进行了验证,得到了较好的实验结果.本文基于粗糙集,模糊集理论,采用增量计算的方法,分别从覆盖近似空间和信息系统同态两个角度对大数据下信息系统中的知识获取,不确定性计算问题进行了研究,给出的增量算法为信息系统中的实际应用难题提供了解决思路,所完成的相关数值实验也为本工作提供了有力的支撑.