论文部分内容阅读
近年来,数据流广泛出现在多种应用领域中,如传感器网络、股票分析、网络故障监测等,与传统数据不同,数据流具有大量、快速连续到达、要求快速响应、一次扫描等特点,因此传统的数据挖掘技术不能直接应用到数据流上。利用有限系统资源对数据流进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。本文主要对滑动窗口模型下的数据流中频繁模式和分类挖掘算法进行了研究。
首先,对传统的数据挖掘相关理论和经典算法进行了深入分析,尤其是频繁模式挖掘算法Apriori、FP-Growth算法和决策树分类ID3算法,并取其之长运用到数据流相关任务的挖掘上,并一一编程实现,深化对算法的认识。
然后,对数据流的特点及其三种模型进行系统研究,其中滑动窗口模型最符合真实应用,并在静态挖掘算法的基础上加以吸收创新,设计并实现滑动窗口模型下适合数据流的单遍扫描算法一频繁模式挖掘算法SOA、SFP和分类算法SDT、SFPC。
最后,本文设计并实现B/S结构的挖掘平台,在这个平台上对以上几种封装后的算法进行测试,实验表明各算法都具有较高的准确性和时间效率。此外,本文还分别分析了频繁模式和分类挖掘在网络监控中的实际应用问题。