基于GEP的多数据流分类压缩并行算法研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:lych001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代互联网、物联网的广泛应用,产生了海量的结构化和非结构化数据,对这些大规模数据的快速处理和有价值信息的挖掘,是大数据处理领域研究的热点。多数据流的分类分析、关联分析、聚类分析以及压缩处理等内容是大数据处理的重要研究内容,对多数据流分类压缩并行算法进行研究,为大数据处理提供优化的解决方法,具有非常重要的意义。针对多数据流分类压缩问题,我们根据基因表达式编程(Gene ExpressionProgramming, GEP)能够克服遗传算法中个体(染色体)存活率不高、收敛速度较慢,以及搜索速度较遗传算法快2-4个数量级的特点,将其应用于多数据流的分类并行算法和多数据流压缩并行算法的研究,并将多数据流的分类与压缩算法进行融合,提出更优化的基于GEP的多数据流压缩并行算法。各种算法的仿真实验验证结果表明,我们提出的基于GEP的多数据流压缩并行算法是多数据流等大规模数据与分布式处理的一种有效的方法。本文主要工作及创新点:(1)采用粒度计算模型对训练数据建立目标概念,通过改进粒度划分规则求解极小粒度空间并将相似属性实施合并,然后将数据样本建立GEP分类器,提出基于GEP的多数据流分类并行算法(MSA-GEP),在多核并行模型下实现多数据流的分类,实验结果表明MSA-GEP算法比传统的分类方法的精确度更高。(2)对流数据实施压缩处理的前期,在n-of-N模型基础上加以改进,形成阈值滑动机制有效的控制数据分段,并使用直方图技术加以优化;然后利用GEP的函数发现功能对数据进行函数替代,提出基于GEP的多数据流压缩并行算法;最后在PC与PC机群中对算法进行对比试验,其中并行部分采用MPI通信机制与主从式交互模型,对数据流实现快速压缩,在压缩比方面与小波变换方法有100~135倍的提高。(3)基于(1)与(2)的研究,为降低CPU读取外存数据的代价,使用动态记录集转存方式使数据由内存(或指定位置)提供,不仅加速数据的处理进程,也为异构数据分类提供了保障。因此,提出一种更优化的基于记录集转存的GEP分类压缩并行算法,对流数据实施分类与压缩操作,并使用属性方差分析方法,了解属性水平的影响程度,最后,在MPI+OpenMP混合编程模型中验证算法加速比、压缩比以及运行时间等性能。
其他文献
我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种
XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描
数字技术的飞速发展和各种功能强大的图像处理软件的出现,使得图像的编辑、修改变得越来越简单。正当人们在享受这些工具带来的方便和快乐的同时,对图像无意或故意的篡改也出现
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法
录井导向成果包括通过录井导向技术获得的数据和图形资料,是石油钻探开采中的重要资料,它集中反映了地下岩层性质和油田分布状况。随着计算机软件和互联网技术的不断发展,传
随着网络技术的迅速发展,数字签名技术在我们的社会经济和生活中得到了越来越广泛的应用。为了满足某些特殊环境的需求,产生了一些具有特殊性质的数字签名,群签名是其中有代
作为人工智能领域的一个热门研究问题,如何让计算机更加准确地了解人们的意图,一直是该领域研究的主要方向。目前手绘草图已经成为人机交互又一重要方式。针对目前跨领域手绘草
社区发现,是指在社会网络中发现有用社区结构的过程。随着科技的发展,社会网络以多种形式影响着现实世界中各个领域的方方面面,如朋友关系网络、科学家文献引用网络以及信息通讯
组合分类器学习是机器学习、模式识别和数据挖掘中非常活跃的研究领域。已有的研究表明,给定相同的训练信息,组合分类器往往表现出比单个分类器更好的泛化能力。然而,大部分组合
图像理解是对图像内容的语义解释与描述,以图像处理与分析为基础,是计算机视觉、模式识别、认知学、心理学、语言学等多学科交叉的一门综合学科,也是图像工程中一项最重要的高层