论文部分内容阅读
数据流是一种以高速连续形式到来的有序项集,它不同于传统的数据库中的数据。数据流具有连续、实时、无限等特点,并且是快速到来的数据。由于流数据明显区别于静态数据,现有的对数据频繁项集挖掘的算法和技术很难适用于数据流。现在很多学者对数据流中的频繁项集挖掘进行了研究,数据流的频繁项集挖掘已经成为了数据挖掘任务中的主要问题之一。论文对国内外数据流挖掘的研究现状进行了介绍,对数据挖掘的应用和相关挖掘技术,数据流的频繁模式挖掘的主要问题和数据流挖掘窗口机制进行了概述。针对现有的数据流频繁模式挖掘算法:挖掘历史事务数据流中的频繁项集DSM-FI算法、挖掘任意滑动时间窗口内的频繁模式MSW算法、挖掘滑动窗口中的事务数据的频繁项集MFI-TransactionSW算法分别进行了分析和总结。基于MFI-TransactionSW算法提出了界标窗口中的频繁项集挖掘算法MFI-TransactionLW算法,该算法采用位图结构存储项,同时不断更新BSIR-list头项列表,创建BSFP-tree频繁模式树,通过自顶向下的搜索策略来发项频繁项集。通过用例分析来对MFI-TransactionSW算法和MFI-TransactionLW算法进行存储结构的比较,用实验证明了MFI-TransactionLW算法比MFI-TransactionSW算法执行的时间效率高,所占用的内存空间少。本文最后提出了一种改进的最大频繁项集挖掘算法DSMMFI-DS算法,该算法将流数据按一定全序顺序排序存入DSFI-list列表中,然后按全序排序后的顺序存储到类似概要数据结构的DSSEFI-tree树中,接着删除树中和DSFI-list列表中的非频繁项,同时删除窗口衰减支持数小的事务项,最后采用自顶向下和自底向上的双向搜索策略来挖掘数据流的最大频繁项集。并通过用例分析对DSM-MFI算法和DSMMFI-DS算法进行存储结构的比较,用实验证明了该算法比DSM-MFI算法具有更好的执行效率。