论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。
近年来,关联规则挖掘研究已经成为数据挖掘中的一个热点,它主要是发现事务数据库中不同事务之间的联系。挖掘事务模式中的频繁项集是关联规则挖掘中的关键问题,现在多数对关联规则算法的改进都是对挖掘频繁项集的改进。关联规则被广泛应用于智能交通、电子商务、传感网络等应用领域。然而随着这些领域的应用,出现了一种新的数据模型--数据流。这些数据的信息量是巨大而且内容是快速变化的。传统的关联规则挖掘算法需要多次扫描数据库和占用较多的空间,不适合数据流的挖掘。因此,在数据流的环境下挖掘频繁项集变成了一个具有挑战性的问题。
针对此问题,在已有数据流频繁模式挖掘算法FP-DS(Mining Frequent Patternin Data Streams)的基础上,本文改进得到了一种基于滑动窗口的数据流频繁模式挖掘FPS-DS(Mining Frequent Pattern based on Sliding-window in Data Streams)算法,并由产生的频繁模式得出关联规则。FPS-DS算法利用滑动窗口对数据流进行处理,能够快速地挖掘最近的关联规则:采用字典树存储频繁项集,避免FP-DS算法中采用基于频数序FP-tree而扫描两次,有效提高了算法的性能;考虑到增量式关联规则中,增量数据加入到原数据的过程类似于滑动窗口中新数据流入的过程,把增量式关联规则中的剪枝思想运用到滑动窗口中。
FPS-DS算法在几组数据集上进行了实验,对算法的正确性、稳定性进行了测试,并与原有的FP-DS算法相比较。实验证明,FPS-DS算法具有较好的稳定性,且时间复杂度也较低于FP-DS算法。
近年来,关联规则挖掘研究已经成为数据挖掘中的一个热点,它主要是发现事务数据库中不同事务之间的联系。挖掘事务模式中的频繁项集是关联规则挖掘中的关键问题,现在多数对关联规则算法的改进都是对挖掘频繁项集的改进。关联规则被广泛应用于智能交通、电子商务、传感网络等应用领域。然而随着这些领域的应用,出现了一种新的数据模型--数据流。这些数据的信息量是巨大而且内容是快速变化的。传统的关联规则挖掘算法需要多次扫描数据库和占用较多的空间,不适合数据流的挖掘。因此,在数据流的环境下挖掘频繁项集变成了一个具有挑战性的问题。
针对此问题,在已有数据流频繁模式挖掘算法FP-DS(Mining Frequent Patternin Data Streams)的基础上,本文改进得到了一种基于滑动窗口的数据流频繁模式挖掘FPS-DS(Mining Frequent Pattern based on Sliding-window in Data Streams)算法,并由产生的频繁模式得出关联规则。FPS-DS算法利用滑动窗口对数据流进行处理,能够快速地挖掘最近的关联规则:采用字典树存储频繁项集,避免FP-DS算法中采用基于频数序FP-tree而扫描两次,有效提高了算法的性能;考虑到增量式关联规则中,增量数据加入到原数据的过程类似于滑动窗口中新数据流入的过程,把增量式关联规则中的剪枝思想运用到滑动窗口中。
FPS-DS算法在几组数据集上进行了实验,对算法的正确性、稳定性进行了测试,并与原有的FP-DS算法相比较。实验证明,FPS-DS算法具有较好的稳定性,且时间复杂度也较低于FP-DS算法。