论文部分内容阅读
数据流挖掘目前已成为数据挖掘的热点话题,如挖掘通信领域中的电话记录数据流以期发现潜在的优质客户、挖掘Web上的用户点击数据流、网络监测中的数据包流以期发现可能存在的黑客攻击、挖掘零售业务中的交易数据流以期实现相关服务的推荐等。以上案例都是对动态商业数据流进行挖掘,与传统数据的挖掘不同,商业数据流挖掘必须适应数据的海量、连续、突变、保密、快速处理及更新、仅读取一次等特点。商业数据流的突变性引发了其所蕴含的概念随着时间而变化的,正是由于随时间的持续变化,必然会导致概念模型的更新,进而引起概念漂移(Concept Drift)问题。数据流的以上特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整以反映新的分类信息。本文在国内外研究基础上首先研究了数据流的存储问题,提出了数据流的增量存储结构——增量存储树;接着,研究了数据流中存在的概念漂移现象,提出了集成贝叶斯分类技术,以及基于2次方的增量存储树更新策略;最后,通过上面的研究提出了基于增量存储树的数据流中隐含概念漂移的分类挖掘算法(CMCD-ST),并以插件的形式开发了CMCD-ST应用程序。主要研究内容包括:第一,对数据挖掘、数据挖掘的商业应用背景、数据流分类挖掘及其现有模型等相关理论进行研究,总结出目前该领域的最新研究成果,以期取其之长运用到商业数据流相关任务的挖掘上。第二,针对数据流的存储进行研究。基于对Bayesian算法的特性以及数据流的特性分析,本文提出了动态增量存储树结构,该结构把以记录为单位进行存储的数据转变为属性存储树,树的大小是由属性、属性值和分类的类别数量决定的。由此数据流的存储容量不是由记录数决定的,而是由属性、属性值和分类的类别数量共同决定,从而解决了动态数据流挖掘最大的难题——数据存储问题。第三,对数据流属性间的多重线性相关等进行研究,采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题。第四,针对数据流中出现的概念漂移现象进行研究。构建了多个动态增量存储树,设计了存储树的实时更新策略——2次方更新策略,结合集成贝叶斯分类器技术,提出了一个基于增量存储树的数据流中隐含概念漂移的分类挖掘算法(CMCD-ST)。最后,结合上述的研究成果,以插件的形式开发了CMCD-ST算法,并成功的把该算法应用在隐含概念漂移的商业数据流的挖掘中。实验证明:该算法具有很好的处理数据流中概念漂移的能力和较高的分类精度。