基于增量存储的商业数据流分类挖掘算法研究与应用

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:ztqye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流挖掘目前已成为数据挖掘的热点话题,如挖掘通信领域中的电话记录数据流以期发现潜在的优质客户、挖掘Web上的用户点击数据流、网络监测中的数据包流以期发现可能存在的黑客攻击、挖掘零售业务中的交易数据流以期实现相关服务的推荐等。以上案例都是对动态商业数据流进行挖掘,与传统数据的挖掘不同,商业数据流挖掘必须适应数据的海量、连续、突变、保密、快速处理及更新、仅读取一次等特点。商业数据流的突变性引发了其所蕴含的概念随着时间而变化的,正是由于随时间的持续变化,必然会导致概念模型的更新,进而引起概念漂移(Concept Drift)问题。数据流的以上特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整以反映新的分类信息。本文在国内外研究基础上首先研究了数据流的存储问题,提出了数据流的增量存储结构——增量存储树;接着,研究了数据流中存在的概念漂移现象,提出了集成贝叶斯分类技术,以及基于2次方的增量存储树更新策略;最后,通过上面的研究提出了基于增量存储树的数据流中隐含概念漂移的分类挖掘算法(CMCD-ST),并以插件的形式开发了CMCD-ST应用程序。主要研究内容包括:第一,对数据挖掘、数据挖掘的商业应用背景、数据流分类挖掘及其现有模型等相关理论进行研究,总结出目前该领域的最新研究成果,以期取其之长运用到商业数据流相关任务的挖掘上。第二,针对数据流的存储进行研究。基于对Bayesian算法的特性以及数据流的特性分析,本文提出了动态增量存储树结构,该结构把以记录为单位进行存储的数据转变为属性存储树,树的大小是由属性、属性值和分类的类别数量决定的。由此数据流的存储容量不是由记录数决定的,而是由属性、属性值和分类的类别数量共同决定,从而解决了动态数据流挖掘最大的难题——数据存储问题。第三,对数据流属性间的多重线性相关等进行研究,采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题。第四,针对数据流中出现的概念漂移现象进行研究。构建了多个动态增量存储树,设计了存储树的实时更新策略——2次方更新策略,结合集成贝叶斯分类器技术,提出了一个基于增量存储树的数据流中隐含概念漂移的分类挖掘算法(CMCD-ST)。最后,结合上述的研究成果,以插件的形式开发了CMCD-ST算法,并成功的把该算法应用在隐含概念漂移的商业数据流的挖掘中。实验证明:该算法具有很好的处理数据流中概念漂移的能力和较高的分类精度。
其他文献
随着社会信息化的推进和通讯技术以及网络技术的飞速发展,信息的流量越来越庞大,存储的数据量正在以指数速度迅速增长,图是一种广泛使用的数据结构,它能很好地表示数据对象之
海洋环境的监测对人类的生存环境与海洋经济的发展有着至关重要的作用。近年来随着海洋学的发展和研究日益深入,海洋环境的监测和调查研究工作越发受到人类的重视。本文研究
数据起源是新兴的研究领域,可用来判断数据的来源、质量和可靠性,方便数据的重用。迄今为止,对起源的研究主要集中在建模、计算、存储、查询等工作上,对确保数据起源信息安全
随着互联网技术的迅猛发展,网络信息资源呈几何级数增长,如何从海量数据中快速准确的提取有价值的信息显得更加重要。搜索引擎的出现有效的解决了用户检索信息的困难。而中文
随着信息网络的高速发展,越来越多的的、企事业单位也不可抗拒地加入到了信息网络时代中。为了提高工作效率,实现生产自动化或管理水平现代化,电子政务、电子商务、企业信息
计算生物学是当今世界发展最为迅速、最热门的学科之一,计算生物学研究的成果影响着人类在生物进化、基因制药、基因治疗等领域的研究进展。生物学、化学、数学、计算机科学