论文部分内容阅读
关联规则是数据挖掘的重要组成部分,有着广泛的应用领域,也是国内外众多学者的研究热点。本文对多支持度关联规则算法进行了较为深入的研究,针对现有算法的不足,提出改进算法,并将改进算法应用到隧道整治工作中,取得了良好的效果。论文的具体研究内容如下:首先,深入细致地研究了现有国内外关联规则算法和铁路隧道病害整治的研究现状。发现多支持度关联规则算法挖掘出的知识更符合现实世界,然而其复杂度也远远超出了其它算法,尤其是随着数据量的增大,其性能越来越差。在铁路隧道病害整治工作方面,国内外众多学者研究出大量有意义的成果,为铁路隧道事业做出了巨大的贡献。然而隧道病害成因极为复杂,已有研究成果大多是针对某一类病害或者某一类具体的工程条件,有很大的局限性。尤其在中国,隧道较多历史也较长,病害成因就更为复杂,结果是:对病害机理往往认识不足,整治措施不当,整治效果也欠佳。其次,基于隧道病害整治工作的现状,结合国内隧道病害信息丰富的优势以及关联规则的特征,本文提出了一种适于大量数据的关联规则算法——DPCFP-growth算法,并对其进行了详细论述。该算法能够根据机器的性能,把FP-tree不同分支上的事务不重叠的划分到不同的数据库中,然后借鉴CFP-growth算法中频繁模式挖掘的算法进行子库知识发现,最后汇总各个子库的知识形成全局知识。该算法不但能把大量数据分割为机器可以接受的小数据量,使得更好的发挥机器的性能,而且分割后的子库中仅仅包含了CFP-tree一个分支的数据,从而能够大大减少局部知识发现的工作量。另外DPCFP-growth算法还可以利用多台机器并行处理各个子库,提升效率。再次,分析了铁路隧道病害信息的特征,运用DPCFP-growth算法进行知识发现,并把挖掘出的结果与已有的关联规则挖掘出的结果相比,最终验证DPCFP-growth算法能够挖掘出更多更准确的知识,能够更好的指导隧道病害预防和整治工作。最后,本文描述了DPCFP-growth算法在铁路隧道决策支持系统中的应用。系统可以由专家指定合适的支持度阈值,挖掘出频繁模式,然后结合当前隧道的病害信息,给出预防和整治方案,为病害整治工作提供了重要的依据。