论文部分内容阅读
频繁模式挖掘作为数据挖掘的基础任务一直是数据挖掘领域中的研究热点。近年来,随着智能终端、互联网及无线传感器网络的快速发展,社会生活的各个领域出现了数据的爆炸式增长,这其中既包含传统静态数据的海量积累,同时也存在大规模动态数据流的产生。这无疑对频繁模式挖掘算法提出了更高的要求与挑战。本文聚焦于频繁模式挖掘算法,针对两种不同的数据背景,对现存的经典频繁模式挖掘算法实现了改进与优化,提升了频繁模式挖掘算法性能。并以企业智能化运维监控工作需求为出发点,融合大数据处理框架与频繁模式挖掘算法,实现了一套分布式集群监控系统。本文的主要研究内容如下:1.研究基于静态数据的频繁模式挖掘算法。针对经典频繁模式挖掘算法FPGrowth在模式增长过程中存在的缺陷,本文了提出一种链表模式树结构LP-Tree(Linked-list Pattern Tree),并以其为载体提出了一种基于静态数据的频繁模式挖掘算法LPTFPM(Linked-list Pattern Tree Frequent Pattern Mining),算法有效地提升了频繁模式挖掘效率。在此基础上,结合Spark分布式计算框架,设计了并行化频繁模式挖掘算法PLPTFPM(Parallel LPTFPM)。最后通过对比实验对PLPTFPM的挖掘性能进行了验证。2.研究基于数据流的频繁模式挖掘算法。通过分析现存的数据流频繁模式挖掘算法中的状态更新方法与挖掘策略,本文提出了一种基于时间窗口的数据流处理模型WDP-Tree(Window-based Dynamic Pattern Tree)。WDP-Tree能够在单次扫描内完成对数据流片段的有效压缩与动态更新。基于WDP-Tree,结合LPTFPM算法与Spark Streaming分布式数据流计算框架,设计了针对数据流的并行化频繁模式挖掘算法WDPTMS(Window-based Dynamic Pattern Tree Mining on Stream)。最后通过对比实验验证了WDP-Tree的数据压缩性能以及WDPTMS的挖掘性能。3.设计并实现基于频繁模式挖掘的分布式集群监控系统。在频繁模式挖掘算法理论研究的基础上,依托某电网公司信息系统智能化运维监控项目,本文具体分析了分布式集群监控系统模块的功能与联系,利用大数据处理框架与关联规则分析技术,设计并实现了集数据采集、数据存储、数据分析、结果展示为一体的分布式集群监控系统。系统以电网公司信息系统资源动态监控、告警数据关联规则挖掘为主要工作点,实现了项目中的部分核心模块,为电网公司新型一体化运维系统的搭建提供一定的解决思路与技术支持。