【摘 要】
:
分布式数据流挖掘日渐成为数据挖掘领域的一个新的研究热点。分布式数据流不仅具有数据量大,速度不断变化,潜在无穷多等典型的数据流的一般特征,还具有非集中,产生于多个数据源的
论文部分内容阅读
分布式数据流挖掘日渐成为数据挖掘领域的一个新的研究热点。分布式数据流不仅具有数据量大,速度不断变化,潜在无穷多等典型的数据流的一般特征,还具有非集中,产生于多个数据源的特征。银行交易业务、科学实验观察、传感器网络等都是能够产生这类分布式数据流的典型应用。因此,快速、有效地对分布式数据流进行分析和挖掘从而获得对人们有益的知识,具有很强的实用性和广泛的应用前景。
本文的研究内容限定于分布式数据流挖掘中的一个方面——同构的分布式数据流的分类方法。提出了一种结合使用决策树和贝叶斯分类模型进行分布式数据流挖掘的方法。该方法使用了基于元学习的分布式挖掘框架,将局部数据流上的信息通过统计概要的形式表达出来,供中心节点进行二次学习,从而掌握全局的数据分布,有效地解决了分布式数据流挖掘中的传输代价问题。该方法充分发挥了决策树和贝叶斯两种分类模型的优势。局部节点使用决策树对数据流进行快速分析处理,中心节点使用贝叶斯能够从统计概要中进行学习,而不依赖于原始数据。
此外,本文提出了一种使用集成分类器进行概念漂移检测的算法。该算法在维护和更新集成分类器方面结合使用了多种策略进行综合控制。能够根据集成分类器对当前概念的掌握情况来动态的决定下一步采取的动作,而不是机械式地采取固定的一系列动作。这种动态策略能够避免在概念稳定时带来的不必要的维护开销,提高了计算效率。该算法能够及时地检测概念漂移的发生并快速地从概念漂移中恢复过来。
针对本文提出的方法的实验结果表明,该方法能够有效地对分布式数据流进行学习和挖掘。在数据流的概念处于稳定的时期,在中心节点上能够获得对全局数据分布的较好掌握。在数据流的概念发生漂移时,局部节点和中心节点均能检测到漂移情况的发生并快速地从中恢复。
其他文献
本文对单个神经元振子进行了动力学分析,提出并实现了基于Wilson Cowan振子和松弛振子的生物神经网络,利用该生物神经网络实现了对灰度图像的分割和注意区域转移。本文还借鉴
成像设备的分辨率与获取场景范围之间的矛盾,以及特殊环境的限制,使得人们很难同时获取高分辨率、大尺寸图像,另一方面,多源图像信息的综合利用也成为重要问题。为满足人们的
本文从布尔函数的角度研究分组密码的理论和分析。本文在一些布尔函数的高阶差分特性的基础上,研究了高阶差分攻击对分组密码安全性的影响,并利用这些性质构造了一些新的用于
频率合成器是现代电子系统的重要组成部分,是决定电子系统性能的关键设备之一。随着现代通信技术的发展,系统对频率合成器提出了越来越高的要求。低相位噪声、高频谱纯度、高
随着互联网技术的不断发展,网络已经不仅仅是一个为用户提供信息服务的平台,特别是Web2.0技术的发展和SNS服务的出现,让用户真正成为了网络的参与者。网络成为人们生活中不可或
P2P技术自产生之后便得到了迅速的发展,所衍生的技术应用得到了广泛的普及,P2P网络文件共享下载和P2P网络视频技术便是其中的典型代表。P2P技术的快速发展给人们的网络生活带来
随着可信计算领域的不断发展,可信软件的研究已经逐渐成为当前的研究热点。如何构造可信软件问题,已经成为当前软件技术所面临的一个挑战,该领域的相关研究具有重要的理论意
随着计算机软硬件技术的发展,计算机视觉系统也越来越广泛地应用于交通监控、航拍、辅助驾驶等户外场景。由于现有的计算机视觉系统对环境条件非常敏感,在能见度低的恶劣天气条
静息态功能磁共振(functional Magnetic Resonance Imaging,fMRI)由于没有任何特定的认知任务,容易操作和控制,已广泛应用于临床神经疾病的诊断和研究,且取得了很多重要的研
XML是W3C提出和维护的数据表示与交换的标准。XML作为一种统一的信息数据格式已经应用到很多领域中,并已经成为互联网上的数据通用语言。XQuery是W3C提出的针对XML数据的查询