论文部分内容阅读
现代互联网、物联网的广泛应用,产生了海量的结构化和非结构化数据,对这些大规模数据的快速处理和有价值信息的挖掘,是大数据处理领域研究的热点。多数据流的分类分析、关联分析、聚类分析以及压缩处理等内容是大数据处理的重要研究内容,对多数据流分类压缩并行算法进行研究,为大数据处理提供优化的解决方法,具有非常重要的意义。针对多数据流分类压缩问题,我们根据基因表达式编程(Gene ExpressionProgramming, GEP)能够克服遗传算法中个体(染色体)存活率不高、收敛速度较慢,以及搜索速度较遗传算法快2-4个数量级的特点,将其应用于多数据流的分类并行算法和多数据流压缩并行算法的研究,并将多数据流的分类与压缩算法进行融合,提出更优化的基于GEP的多数据流压缩并行算法。各种算法的仿真实验验证结果表明,我们提出的基于GEP的多数据流压缩并行算法是多数据流等大规模数据与分布式处理的一种有效的方法。本文主要工作及创新点:(1)采用粒度计算模型对训练数据建立目标概念,通过改进粒度划分规则求解极小粒度空间并将相似属性实施合并,然后将数据样本建立GEP分类器,提出基于GEP的多数据流分类并行算法(MSA-GEP),在多核并行模型下实现多数据流的分类,实验结果表明MSA-GEP算法比传统的分类方法的精确度更高。(2)对流数据实施压缩处理的前期,在n-of-N模型基础上加以改进,形成阈值滑动机制有效的控制数据分段,并使用直方图技术加以优化;然后利用GEP的函数发现功能对数据进行函数替代,提出基于GEP的多数据流压缩并行算法;最后在PC与PC机群中对算法进行对比试验,其中并行部分采用MPI通信机制与主从式交互模型,对数据流实现快速压缩,在压缩比方面与小波变换方法有100~135倍的提高。(3)基于(1)与(2)的研究,为降低CPU读取外存数据的代价,使用动态记录集转存方式使数据由内存(或指定位置)提供,不仅加速数据的处理进程,也为异构数据分类提供了保障。因此,提出一种更优化的基于记录集转存的GEP分类压缩并行算法,对流数据实施分类与压缩操作,并使用属性方差分析方法,了解属性水平的影响程度,最后,在MPI+OpenMP混合编程模型中验证算法加速比、压缩比以及运行时间等性能。