论文部分内容阅读
近年来,大气环境实时动态监测系统采集了大量的数据,这些海量数据背后隐藏着大量的有用知识,研究者们希望通过对所采集的大气环境监测值的深层次分析,挖掘出其中潜在的有价值的信息。关联规则作为数据挖掘最重要的任务之一,其目标是发现数据库中各语义项间的关联关系,为大气环境的质量分析和预测提供了一种有效的解决方法。 大气环境监测数据集通常都是些数量型数据集,传统解决方法是通过数量属性的离散化将数量型关联规则挖掘问题转化为布尔型关联规则,然而这类方法得到的用区间表示的关联规则难以被理解。所以文中采用了模糊关联规则挖掘方法,这种方法能够保证挖掘所得的各模糊语义项间的逻辑语义,但同时也产生了几个问题:如何实现数量型数据集到模糊型数据集的转换,如何挖掘出具有模糊逻辑语义的关联规则,如何解决大规模环境监测数据集中模糊关联规则挖掘问题。本文围绕这些问题,展开了论文的相关研究工作。 [1]采用基于CHC遗传模型的模糊划分方法实现了大气环境监测数据值到模糊型数据值的转换。 [2]采用了一种改进的FP-Growth算法对本文实验数据集中的模糊关联规则进行挖掘。改进的算法通过在ffp-tree树头表中添加一个tail域,使得新插入的ffp-tree树结点在进行插入操作时不在需要遍历整个side_link域,提高了挖掘效率。 [3]针对大气环境监测数据集“大”的特点,实现了基于MapReduce的FP-Growth模糊关联规则挖掘算法。 实验证明,通过上述方法挖掘所得到的模糊关联规则能准确表达规则前后件的确定性和渐进性逻辑语义,为大气环境质量分析和预测能够提供有效的参考价值。